5月8日
17:42
Alibaba Cloud@alibaba_cloud
精选66
阿里云推出Smart Studio,一站式自托管AI模型平台

阿里云发布Smart Studio平台,旨在整合AI模型测试与服务的全流程,终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型(如Qwen3.6-Max、DeepSeek-v4)的能力,支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室,用于并排比较开源与闭源模型的输出效果,并能快速将Hugging Face上的模型转化为实时API,简化部署流程。

产品更新多模态部署/工程

推荐理由:阿里云把模型探索和部署打成一个自托管套件,从 Qwen3.6-Max 到 DeepSeek-v4 都能本地跑起来对比,做模型选型的能省不少折腾。
17:26
-Zho-@ZHO_ZHO_ZHO
52
AI图像生成未达设计标准,保罗·兰德阐释设计本质

推文引用设计师保罗·兰德的观点,指出仅将视觉元素进行美观排列不等于好的布局,这是对平面设计师职能的误解。作者借此解释当前AI图像生成技术为何尚未达到真正的设计标准。兰德强调,设计超越表面的视觉组合,涉及更深层的构思与判断,而这正是当前AI所缺乏的核心能力。

图像生成大佬观点
17:21
ginobefun@hongming731
60
语音AI成为主交互界面,AI智能体系统自主性增强

OpenAI发布GPT-Realtime-2等实时语音模型,将高级推理能力引入语音交互,推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元,并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战,与SpaceX合作获取大规模计算能力,同时升级Claude托管智能体,使其具备自我改进与多智能体协作能力。行业趋势显示,AI正从工具演变为能自主运行的智能体系统,这给GitHub等基础设施带来了新的负载压力。

智能体AnthropicOpenAI现象/趋势
17:21
ginobefun@hongming731
46
语音AI模型显著提升,编程范式加速变革

BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 发布了三个实时语音模型,GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元,下一个方向是情绪智能。Anthropic 增长80倍,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均150个PR,GitHub 被 AI 流量压到86%可用性。 播客和图文都已上线 ↓

AnthropicOpenAI现象/趋势编码
17:15
小互@xiaohu
58
Claude开发者大会展示Cardputer实体交互设备

Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。

Anthropic教程/实践端侧语音
15:23
15:14
小互@xiaohu
69
GPT-Realtime-2 语音模型发布

OpenAI发布三款实时语音模型。核心GPT-Realtime-2首次集成“GPT-5级推理”能力,支持复杂对话推理、并行调用工具及纠错,上下文窗口扩展至128K。GPT-Realtime-Translate支持70多种语言的实时翻译,能适应说话节奏并处理专业词汇。GPT-Realtime-Whisper则为低延迟场景提供流式语音转文字服务。

OpenAI产品更新语音
15:14
向阳乔木@vista8
精选71
Codex Chrome插件安装使用注意事项

安装Codex Chrome插件需注意:确保Codex为最新版本并使用官方订阅登录,第三方API模式不支持。插件安装对网络节点有要求,部分区域(如香港)可能无法使用。建议将Chrome设为默认浏览器以便引导。安装后,需在对话中通过“@ Chrome”指令调用。若连接失败,可尝试重启电脑。

智能体教程/实践部署/工程
关联讨论 9X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)X:小互 (@xiaohu)IT之家(RSS)
推荐理由:向阳乔木第一时间踩坑Codex Chrome插件,总结的四个坑都很具体,尤其第三方API不支持插件这点没试过的肯定会踩,想用电脑操作的先看这个能省半小时。
14:21
Berryxia.AI@berryxia
65
利用AI工具快速开发全球应用价格监控服务

开发者借助Cursor赠送的额度,花费约100美元和两天时间创建了Owl Eyes工具。该工具监控全球141个App Store区域的价格变动,核心功能包括比较ChatGPT和Claude等服务的地区价格、发现限免应用、追踪汇率差异及设备差价,并支持价格提醒。项目揭示数字产品的全球定价差异可达30%-70%,指出利用国家、汇率和定价层差异可能比寻找优惠券更能节省开支。

产品更新其他
14:09
13:43
12:21
Berryxia.AI@berryxia
68
优化表格Agent检索效率:Ramp Labs集成Fast Ask子代理

Ramp Labs在Ramp Sheets的Spreadsheet Agent中深度集成了Fast Ask检索子代理,解决了传统表格Agent因读取范围不当导致的效率低下和成本高昂问题。该子代理能自动导航并读取最相关数据范围,仅返回精炼答案,减少上下文污染与token消耗。其基于开源Qwen3.5-35B-A3B模型,通过与Prime Intellect合作进行RL后训练优化。实际应用中,它消除了主代理17.8%的无效工具调用,延迟接近Claude Haiku 4.5,准确率比Claude Opus 4.6高4个百分点,实现了更快、更准、更经济的系统性能。

智能体搜索教程/实践部署/工程
12:13
SenseTime@SenseTime_AI
42
商汤科技在新加坡展示城市安全与智慧化AI方案

商汤科技在新加坡MTX-Millipol TechX展览中展示了其前沿的视觉AI创新,旨在提升城市安全与智能化水平。其解决方案基于SenseFoundry单体算法模型生产平台和由SenseNova驱动的多模态视频理解智能体,涵盖从火灾检测到交通事故监测等公共安全领域。公司表示将与新加坡合作伙伴紧密协作,共同加速数字化转型,构建开放、包容且繁荣的本地AI生态系统。

多模态行业动态视频
11:39
meng shao@shao__meng
68
Codex新增/side功能实现并行对话不中断

Codex推出/side功能,允许用户在AI执行主要任务时,无需中断当前进程即可开启新对话窗口处理突发问题,如登录或点击操作。该功能支持在/side窗口运行期间继续开启新的/side对话,实现多话题并行插入,但并行窗口数量上限尚未明确。

智能体教程/实践编码
11:22
歸藏(guizang.ai)@op7418
精选73
Codex 越来越猛了,昨天更新增加了内置的谷歌浏览器插件,可以直接控制你的谷歌浏览器执行任务。

Codex最新更新引入了内置谷歌浏览器插件,能直接控制基于Chromium的浏览器(如Chrome或Dia)执行任务。该插件支持后台跨浏览器页面并行工作,不干扰正常浏览;用户可启动多个SubAgent同时操作多个网页,实现高效并发。根据OpenAI官方信息,Codex现直接在macOS和Windows的Chrome中运行,能更好地与应用和网站交互,并在后台跨标签页并行处理任务,不接管浏览器。安装方法简单:在Codex插件库找到Chrome插件,点击添加并安装即可。安装后,用户可无缝下达指令,享受流畅的多任务操作体验。

智能体OpenAI产品更新编码
关联讨论 9X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)X:小互 (@xiaohu)IT之家(RSS)
推荐理由:Codex 这次更新的精髓是并行控制浏览器 Tab,不抢鼠标不弹窗,后台就能帮你填表、搜信息,自动化体验又拉高了一截。
11:05
Eric@ericmitchellai
精选85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。
OpenAI推理模型发布语音
关联讨论 14OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)X:Tibo (@thsottiaux)
推荐理由:OpenAI首次把GPT-5级推理塞进实时语音模型,音频原生智能不再是demo玩具,做语音agent的团队今天就可以在API里调用。