5月9日
01:54
Ant Ling@AntLingAGI
精选78
Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计

Ring-2.6-1T是一款万亿参数的旗舰思维模型,专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能,通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化,适用于高频工作流,提供快速多步执行和工具编排,并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限,特别适合严格数学逻辑和科学研究。

智能体推理模型发布

推荐理由:蚂蚁憋了个万亿参数的大家伙,而且把可调思考和 Agent 优化当主打,明显是冲着生产级落地的,做 agent 的可以盯一下实际推理成本。
5月8日
11:05
Eric@ericmitchellai
精选85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。
OpenAI推理模型发布语音
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:OpenAI首次把GPT-5级推理塞进实时语音模型,音频原生智能不再是demo玩具,做语音agent的团队今天就可以在API里调用。
09:43
Tibo@thsottiaux
精选83
我们正在众目睽睽之下构建通用人工智能 【引用 @OpenAI】:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。
智能体OpenAI推理模型发布
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:GPT-5 级推理放到实时语音里,语音代理从听懂话到真正协作的分水岭,做语音产品的都该立刻试一下。
07:39
meng shao@shao__meng
精选80
OpenAI 发布三款实时语音新模型,推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。

智能体OpenAI多模态推理
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:GPT-5级推理首次进入实时语音API,语音agent从此能边听边推理边调工具,不再只是问答。Zillow呼叫成功率从69%拉到95%,做语音产品的该认真看看了。
06:21
Berryxia.AI@berryxia
精选83
OpenAI推出GPT-Realtime-2,将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI推理模型发布语音
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:OpenAI把GPT-5级别的推理塞进实时语音,以前语音代理的「背台词」感被终结了,做语音应用的人今天就能上手试API。
06:21
Berryxia.AI@berryxia
67
Google发布最划算AI模型,成本速度双优

能不能卷过DeppSeek v4-flash 啊! Google继续把AI成本卷到地板上了。 Gemini 3.1 Flash-Lite正式更新,这才是他们目前最划算的模型,专门为高体积agent任务、翻译和简单数据处理优化,价格低到离谱,速度还快得吓人。 以前大家卷参数、卷智能,现在Google直接告诉你:真正能跑通高频workflow的,是这种又便宜又稳的“轻量怪”。

智能体Google模型发布
04:35
Artificial Analysis@ArtificialAnlys
精选73
OpenAI发布GPT-Realtime-2语音模型,在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。

OpenAI推理模型发布语音
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:OpenAI 的语音模型这次不是小修小补,Big Bench Audio 得分涨了 13 个点,上下文扩到 128K,推理成本可调,做语音 agent 的可以认真考虑换代了。
03:10
Sam Altman@sama
精选79
人们真的开始用语音与AI互动了,尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API;这是相当大的一步前进。 (我们正在改进聊天中的语音功能。)
OpenAI模型发布语音
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:Sam Altman亲自宣布GPT-Realtime-2 API上线,语音交互正在从尝鲜变刚需,尤其当用户开始「倾倒大量上下文」,做语音产品的该认真考虑了。
02:05
Greg Brockman@gdb
精选87
OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型,标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者,在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型,共同构成了一套面向下一代语音界面的全新音频能力组合,为开发者构建卓越的实时语音交互应用提供了强大工具。
智能体OpenAI推理模型发布
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:GPT-5 级推理终于跑在实时语音上了,不再是简单的语音转文字再转模型,而是原生能边听边想边说的协作 agent。做语音客服和虚拟角色的人可以着手切到新 API 了。
02:01
Chubby♨️@kimmonismus
精选75
OpenAI近日发布了三款新的实时语音模型:GPT-Realtime-2具备近似GPT-5的推理能力,允许语音助手在对话中实时思考;GPT-Realtime-Translate支持超过70种语言的实时翻译;GPT-Realtime-Whisper则能实现流式语音转文本。与此同时,OpenAI官方通过引用推文暗示,用户期待已久的ChatGPT语音功能更新正在积极准备中,即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式,进一步提升其交互体验与应用能力。
OpenAI多模态模型发布语音
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:OpenAI 把 GPT-5 级推理塞进实时语音,这个组合对客服和口语应用是真正的规则改写,所有依赖语音交互的产品都得重新评估。
01:42
TestingCatalog News 🗞@testingcatalog
精选81
OpenAI在Playground和API中推出了三款新模型:GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中,GPT-Realtime-2被描述为迄今最智能的语音模型,为语音智能体带来了GPT-5级别的推理能力,使其能作为实时协作者,在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集,也预示着ChatGPT的语音模式可能即将迎来重要更新。
OpenAI推理模型发布语音
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:这是GPT-5级推理第一次被塞进实时语音模型,语音Agent不再只是‘听懂并回复’,而是能边听边想、处理复杂逻辑,做语音产品的人今天应该马上打开Playground试试。
01:40
OpenAI@OpenAI
精选86
在API中推出GPT-Realtime-2:我们迄今为止最智能的语音模型,为语音助手带来GPT-5级别的推理能力。 语音助手现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线--为新一代语音界面提供全新的音频功能套件。
OpenAI推理模型发布语音
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:把GPT-5级推理塞进语音,意味着语音助手从“你问我答”进化为能边听边想、实时求解的协作伙伴,做语音agent的开发者该认真看看了。
01:36
OpenAI Developers@OpenAIDevs
精选78
OpenAI通过API正式发布了新一代实时语音模型系列,显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平,使语音智能体能作为实时协作者,在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译,GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。
智能体OpenAI推理模型发布
关联讨论 5OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)IT之家(RSS)
推荐理由:这是语音模型第一次真正拥有 GPT-5 级推理,语音代理不再是问答机而是能边听边想边解决问题的协作者,做语音产品的该重新想想架构了。
5月7日
23:06
Ant Ling@AntLingAGI
精选76
inclusionAI宣布Ling-2.6-1T现已在OpenRouter上线。🚀 这款万亿参数旗舰指令模型专为现实世界智能体打造。它采用"快速思考"方法,在保持AIME26和SWE-bench Verified基准测试顶尖性能的同时,将成本降低约75%。适用于: - 高级编程 - 复杂推理 - 大规模智能体工作流
智能体推理模型发布编码

推荐理由:万亿参数专攻Agent,成本还直降75%,对狂烧token费的AI Agent团队来说是个真信号。蚂蚁终于不玩虚的,OpenRouter上就能试。
19:31
Chubby♨️@kimmonismus
66
ZAYA1-8B小模型展现超强推理能力,采用AMD全栈方案

Zyphra发布ZAYA1-8B模型,其活跃参数不足10亿,却在数学、编程和推理基准测试中媲美更大的开源及专有系统。其亮点不仅在于小尺寸,更在于全栈技术方案:完全基于AMD基础设施训练,采用了新的架构选择和大规模强化学习。此外,模型应用了一种名为Markovian RSA的测试时计算方法,通过并行推理和递归聚合,显著提升了复杂数学问题的解决能力。

推理模型发布端侧
5月6日
22:36
SenseTime@SenseTime_AI
精选71
🚀 SenseNova-U1 更新: ⚡ 开源8步蒸馏LoRA:100 NFE降至8 NFE,H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI,提供文生图、图像编辑和交错生成的即用工作流 试用链接 👇 https://github.com/OpenSenseNova/SenseNova-U1/
图像生成开源/仓库推理模型发布

推荐理由:从100步到8步,23秒压到2秒,商汤这个蒸馏LoRA把U1的推理成本打下来了,做实时图像应用的可以认真看看,ComfyUI一接就能跑。
20:36
向阳乔木@vista8
63
豆包大模型Doubao-Seed-2.0-lite实现全模态理解与能力提升

Doubao-Seed-2.0-lite 0428 内测版本升级,新增音频理解功能,能同时支持图片、视频、音频和文本四种输入,成为豆包大模型家族首款全模态理解模型。该版本在 Agent、Coding 和 GUI 能力上也有明显提升。通过 API 测试,验证了其在前端动效复刻、视频Hooks建议和字幕识别等场景的应用潜力,具体案例详见后续推文线程。

多模态模型发布
10:20
歸藏(guizang.ai)@op7418
精选79
OpenAI 将 GPT-5.5 Instant 设为 ChatGPT 默认模型

OpenAI 已全量发布 GPT-5.5 Instant 模型,并将其设为 ChatGPT 的默认模型。此次升级显著提升了模型的实时准确性和日常任务处理能力,特别是在法律、金融和医学等领域有效降低了幻觉率。同时,模型在图片理解与文档解析方面表现更佳。其回答风格变得更加简洁、聚焦要点,并增强了清晰度、个性化以及温暖自然的语调。此外,GPT 引入了记忆来源功能,允许用户可视化查看并编辑记忆的来源。本次更新未包含 Codex 模型。

OpenAI推理模型发布
关联讨论 9X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)X:ChatGPT (@ChatGPTapp)
推荐理由:GPT-5.5 Instant 成为默认模型,解决的是日常最痛的啰嗦和幻觉,记忆来源可视化也把黑盒变透明了,对普通用户是实实在在的提升。
09:34
karminski-牙医@karminski3
精选73
Google发布Gemma 4草稿专用模型,推理速度提升三倍

Google发布了Gemma 4系列模型的专用草稿模型,用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍,仅增加1G显存开销;Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB,专门优化后接受率高,相比之前使用非专用草稿模型(如gemma-4-E2B-it-UD-Q4_K_XL)提速更明显。作者呼吁Qwen尽快推出类似优化模型(如Qwen3.6-27B-assistant),以应对高性能需求。

Google推理模型发布
关联讨论 2X:Berry Xia (@berryxia)X:宝玉 (@dotey)
推荐理由:Google 给 Gemma 4 发了个「加速挂」,专门优化推测解码的草稿模型提速 3 倍,显存只多花 1GB,跑本地模型的人应该马上试试。Qwen 再不跟就输了。
09:34
meng shao@shao__meng
精选77
全球首个基于SSA架构的模型SubQ实现1200万token上下文窗口,效率大幅领先

前沿模型SubQ基于创新的Subquadratic Sparse Attention架构,实现了1200万token的实用上下文窗口。其核心技术SSA通过内容依赖的选择机制,让每个查询仅动态计算与相关键的注意力,使计算和内存成本随序列长度线性增长,而非传统Transformer的二次方增长。实测在100万token时比FlashAttention-2快52.2倍,成本低于Opus的5%。该模型针对需要一次性处理完整代码库、长文档等企业真实长上下文场景优化,旨在弥合“名义上下文”与“功能上下文”窗口的差距。

数据/训练模型发布编码
关联讨论 1X:Rohan Paul (@rohanpaul_ai)
推荐理由:这是第一个真正把子二次方注意力用到前沿模型上的突破,12M 上下文窗口不再只是参数,而是能用起来的真窗口,长上下文场景的成本逻辑要重写了。
08:17
Berryxia.AI@berryxia
66
Gemma 4借助MTP草稿机实现3倍速推理

Google通过为Gemma 4引入MTP drafters(多token预测草稿机),在不增加参数、不改变架构和模型质量的前提下,实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token,突破了传统自回归解码的串行瓶颈,极大提升了GPU利用率。这显著增强了本地部署的实时性,并使Agent、代码生成等场景受益,进一步放大了开源模型在性价比和本地运行方面的优势。

Google开源生态推理模型发布
08:17
Berryxia.AI@berryxia
67
今天这个tts有点东西啊!

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

多模态模型发布语音
08:17
Berryxia.AI@berryxia
精选75
O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。 这是一个重大升级,让你获得更智能、更清晰、更个性化的回答,语气更温暖、更自然。
OpenAI推理模型发布
关联讨论 9X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)X:ChatGPT (@ChatGPTapp)
推荐理由:GPT-5.5 Instant 终于进 ChatGPT 了,智能、语气和个性化都提了一档。真正的变化在成本与响应速度,这才是影响亿级用户产品体验的关键。
06:28
Rohan Paul@rohanpaul_ai
精选76
OpenAI将GPT-5.5 Instant设为ChatGPT默认模型,减少错误、缩短回答并增强个性化

OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%,在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁,用词和行数减少约30%。同时,模型增强了图像和STEM处理能力,并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示,此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。

OpenAI多模态推理模型发布
关联讨论 9X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)X:ChatGPT (@ChatGPTapp)
推荐理由:OpenAI 把 GPT-5.5 Instant 设为默认,52% 的幻觉减少和 30% 的用词精简比跑分更实际,普通用户天天用的体验会明显变好。
05:59
04:33
ChatGPT@ChatGPTapp
精选73
向我们所有使用新即时模型的用户致以热烈的祝贺。
OpenAI模型发布
关联讨论 9X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)X:ChatGPT (@ChatGPTapp)
推荐理由:OpenAI突然发了一个「Instant模型」,推文只有一句庆祝,没给任何能力指标。如果真是主打实时响应,那对聊天体验是实打实的提升,但现在啥也看不出来。
04:28
Greg Brockman@gdb
精选91
重大ChatGPT升级现正推出,形式为GPT-5.5 Instant: 这是一次重大升级,以更温暖自然的语调提供更智能、更清晰、更个性化的答案。 同时它也更简洁,这正是我们所了解到的用户需求。我们相信你会喜欢与它对话。
OpenAI模型发布
关联讨论 9X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)X:ChatGPT (@ChatGPTapp)
推荐理由:ChatGPT终于迎来一次真正的代际升级,GPT-5.5 Instant把聪明和人性化揉在一起,而且更简洁了,之前那些因为啰嗦被嫌弃的对话可以翻篇了。
03:57
Elon Musk@elonmusk
精选83
Grok 4.3 【引用 @xai】:Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。 它在 @ArtificialAnlys 排行榜的智能体工具调用和指令遵循方面位居榜首,并在 @ValsAI 的企业领域(如案例法和公司金融)中排名第一。 Grok 4.3 支持 100 万 token 的上下文窗口,定价为输入每百万 token 1.25 美元,输出每百万 token 2.50 美元。 创建 API 密钥并开始构建:http://console.x.ai/team/default/api-keys
智能体xAI推理模型发布
关联讨论 3X:Elon Musk (@elonmusk, xAI)X:xAI (@xai)X:Artificial Analysis (@ArtificialAnlys)
推荐理由:Grok 4.3 把 agentic tool calling 和指令遵循两个榜单压在脚下,百万上下文配上亲民价格,对做自动化 agent 的团队是个够分量的信号。
03:32
02:31
TestingCatalog News 🗞@testingcatalog
精选77
OPENAI 🚨: GPT-5.5 Instant 正在向所有 ChatGPT 用户推出!"gpt-5.5-chat-latest" 也将进入 API。 > 更加简洁。更好的记忆。更个性化。 即时测试时间 👀
OpenAI模型发布
关联讨论 9X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)X:ChatGPT (@ChatGPTapp)
推荐理由:GPT-5.5 Instant这版从语气到长度都在优化,免费用户终于能摸到GPT-5.5的门槛了,实际体验可能会比参数更重要。