AIHOT

5月1日

19:17

Hacker News 热门（buzzing.cc 中文翻译）

精选76

x.ai 正式发布了 Grok 4.3 模型，开发者可通过官方文档获取详细信息。该模型在 Hacker News 社区获得关注，相关帖子收获了 100 点热度。此次发布标志着 Grok 系列模型的持续迭代更新。

xAI多模态推理模型发布

推荐理由：xAI 的 Grok 4.3 如期而至，性能和对标都写在文档里了，想了解最新大模型实力的开发者值得花五分钟看一眼。

17:46

MiniMax (official)@MiniMax_AI

2

其他

16:47

The Decoder：AI News（RSS）

51

Mistral 新旗舰模型 Medium 3.5 将聊天、推理和代码功能整合为一体

Mistral 发布其新旗舰模型 Mistral Medium 3.5，它将此前独立的聊天、推理和代码生成模型合并为一个单一产品。同时，该公司为其编程工具 Vibe 增加了异步云代理功能，并为聊天产品 Le Chat 引入了新的智能体模式。

智能体推理模型发布编码

15:14

Chubby♨️@kimmonismus

57

xAI发布的Grok 4.3模型在Artificial Analysis Intelligence Index上获得53分，相比Grok 4.20输入成本降低约40%，输出成本降低约60%，性价比突出。其最大亮点是在真实世界代理任务（GDPval-AA）上的ELO评分跃升321点至1500，超越了Gemini 3.1 Pro Preview和Muse Spark等模型，但仍大幅落后于GPT-5.5。该模型在指令遵循和客服任务上表现强劲，同时在Omniscience基准上准确率提升但幻觉率增加。总体而言，Grok 4.3以更低成本实现了更高的智能指数得分，成为同智能层级中成本效益较高的模型之一。

xAI推理模型发布

13:46

TestingCatalog News 🗞@testingcatalog

54

Grok 4.3 现已可在 API 上使用 👀

xAI模型发布

10:09

Elon Musk@elonmusk

61

Grok Grok-4.3 的发布价格低于 Grok-4.2，同时智能体性能大幅跃升：在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 分至 1500，尽管价格更低，却超越了其他顶级模型。

xAI推理模型发布

关联讨论 2 条

08:16

Ethan Mollick@emollick

61

xAI发布Grok 4.3，其在Artificial Analysis智能指数得分53，性能优于Grok 4.20、Muse Spark等模型。核心改进在于"性价比"：输入与输出价格较前代分别降低约40%和60%，且基准测试套件运行成本下降。该版本在GDPval-AA等现实智能体任务上表现显著提升，指令遵循与客服任务强劲。但推文指出，其表现仍落后于最新的中国开源模型，并批评GDPval-AA测试本身价值有限。

大佬观点行业动态评测/基准

08:10

Berryxia.AI@berryxia

54

Gemini Embedding 2 已正式发布！ RAG 知识库的应用又可以支持的更好了。

Google检索增强模型发布

08:10

Berryxia.AI@berryxia

46

OpenRouter 又上了匿名新模型Owl Alpha！ 1M 上下文，强大的工具调用能力！猜猜他是谁家的哈哈😂

智能体MCP/工具模型发布

07:45

OpenRouter@OpenRouter

精选68

@xai 的新模型 Grok-4.3 现已在 OpenRouter 上线！ Grok-4.3 以比 Grok-4.2 更低的价格发布，同时在代理性能上实现大幅跃升：在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 点至 1500，尽管价格更低，但仍超越了其他顶级模型。

智能体xAI模型发布评测/基准

推荐理由：Grok-4.3 降价但性能反升，agentic 跑分直接到 1500，如果之前觉得 Grok 贵而没试过，这次可以上车了。

07:14

Artificial Analysis@ArtificialAnlys

66

xAI发布Grok 4.3模型：智能指数提升且成本大幅降低

xAI推出Grok 4.3模型，其在Artificial Analysis智能指数得分达53，超越Muse Spark等模型，较前代提升4分。模型在显著降低成本的同时保持智能水平，输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出，GDPval-AA基准得分大幅提升至1500 ELO，超越Gemini 3.1 Pro Preview等多款模型，但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲，但AA-Omniscience非幻觉率略有下降。

智能体xAI推理模型发布

关联讨论 2 条

03:14

Artificial Analysis@ArtificialAnlys

65

蚂蚁集团开源Ling 2.6 1T模型，性价比与智能取得平衡

蚂蚁集团InclusionAI实验室发布开源非推理模型Ling 2.6 1T。该模型拥有1万亿参数，在Artificial Analysis Intelligence Index上得分为34分，较前代Ling-1T提升15分，智能水平接近DeepSeek V3.2等同类模型。其在科学推理与知识任务上表现扎实，GPQA得分达75%。模型运行效率较高，执行该指数仅需约1600万输出tokens，成本效益突出，通过官方API运行全套指数成本约95美元。但其事实可靠性较弱，在AA-Omniscience基准上得分为-51分，主要因幻觉率高达92%。模型权重已在Hugging Face公开。

开源生态评测/基准

关联讨论 2 条

02:13

Ant Ling@AntLingAGI

精选76

AntLingAGI团队宣布Ling-2.6-1T模型正式开源，已登陆Hugging Face平台，并通过Novita Labs提供官方推理体验。该模型采用混合专家架构，总参数1万亿、激活参数630亿，核心优化方向为"令牌效率"以满足真实生产需求。具体表现为：低令牌开销，能在无需冗长推理链的情况下保持强大智能；可靠的多步执行能力，提升指令、工具、上下文和工作流的控制水平；生产就绪的部署特性，覆盖从代码生成到错误修复的任务，并广泛兼容各类智能体框架。团队旨在通过降低测试、部署、定制和构建的难度，为开发者创造价值。

智能体Hugging Face模型发布部署/工程

关联讨论 2 条

推荐理由：1T参数开源模型不是天天有，蚂蚁这个Ling-2.6-1T强调token效率和Agent能力，做Agent的可以直接去Hugging Face上跑一下，看看是不是真的在生产环境省token。

01:45

Google AI@GoogleAI

精选69

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2

谷歌上周正式向公众发布了其首个原生多模态嵌入模型Gemini Embedding 2。该模型如同“通用翻译器”，能将文本、图像、视频和音频数据转化为独特的数字向量。其核心突破在于不再依赖关键词匹配，而是基于语义将不同模态的数据映射到同一空间，从而理解内容间的深层联系。开发者已利用该模型构建视频分析工具、视觉购物助手等应用，实现通过拍照或描述场景进行智能搜索的功能。模型现可通过Gemini API或Gemini Enterprise Agent平台使用。

Google多模态搜索模型发布

关联讨论 1 条

推荐理由：Google 第一个原生多模态嵌入模型，把文本、图像、视频拉到同一个向量空间，做跨模态搜索的开发者可以不用再手动打标签了，但离「无感理解」还有距离。

01:44

TestingCatalog News 🗞@testingcatalog

55

苹果 🍎： "AFM Plus 150B Instruct" Apple Foundation Model 在内部的 AFM Playground 应用中被发现。这个应用正在被苹果员工内部使用，以测试 Apple Foundation 模型。 WWDC26 将会很火爆 🔥

端侧行业动态

01:14

TestingCatalog News 🗞@testingcatalog

49

ANTHROPIC 🚨： Anthropic 已开始与红队测试新的 "claude-jupiter-v1-p" 模型。下一个会是谁？👀

Anthropic安全/对齐行业动态

4月30日

23:13

SenseTime@SenseTime_AI

59

SenseNova U1 Lite系列：小规模多模态模型开源发布

SenseNova U1 Lite Series是新一代原生统一的多模态模型，在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成，具备强语义完整性和像素级精度；高布局一致性，实现准确可靠的文本渲染；以及行业首创的连续图像-文本生成，支持统一推理和一致视觉风格。该模型现已完全开源，相关代码和资源可通过GitHub、Hugging Face等平台获取。

图像生成多模态模型发布

23:13

OpenRouter@OpenRouter

59

全新隐形模型：Owl Alpha！ Owl 是一款专为智能体工作负载设计的高性能基础模型。具备强大的工具使用能力和 100 万上下文窗口，可随时用于您喜爱的所有生产力应用。立即试用并分享反馈以改进模型！

智能体模型发布

23:10

IT之家（RSS）

精选72

DeepSeek 公布多模态模型技术报告

DeepSeek发布了多模态大模型及技术报告，提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元，旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题，使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低，其在多项挑战性计数和空间推理基准测试上的性能，可与GPT-5.4等前沿模型相媲美。

DeepSeek多模态推理论文/研究

推荐理由：DeepSeek 把视觉概念直接变成推理单元，绕开了语言描述空间的先天模糊，在空间推理上把自家紧凑模型拉到和 GPT-5.4 一个水平，做多模态应用的人值得细读。

20:42

The Decoder：AI News（RSS）

49

Tencent 发布 440 MB AI 模型，可在手机上离线翻译 33 种语言

腾讯发布了一款紧凑型开源 AI 翻译模型，其大小仅为 440 MB。该模型支持 33 种语言的互译，并能在智能手机上完全离线运行。腾讯声称，其性能超越了谷歌翻译。这一轻量化设计使得高质量的神经机器翻译无需依赖网络连接即可在移动设备上实现。

开源生态模型发布端侧

20:42

Hacker News 热门（buzzing.cc 中文翻译）

57

Granite 4.1：IBM 的 8 位模型与 32 位 MoE 相媲美

IBM开源了Granite 4.1系列模型，其80亿参数版本在性能上可与320亿参数的混合专家模型相媲美。这一突破表明，通过优化架构与训练方法，较小规模的模型也能达到更大模型的效能水平，为高效部署提供了新选择。该模型家族已开源，在开发者社区中获得关注，相关讨论在Hacker News上获得了超过100点热度。

开源生态模型发布

20:10

IT之家（RSS）

40

OpenAI 将推出前沿网络安全模型 GPT-5.5-Cyber，暂不向公众开放

OpenAI宣布将推出基于GPT-5.5定制的网络安全模型GPT-5.5-Cyber。该模型不会向公众开放，将在未来数日内限量定向开放给经过筛选的网络安全防护人员，以协助强化网络防御。具体技术细节尚未披露，OpenAI表示将联合行业与政府制定可信准入机制。这种分阶段限量推出高风险顶级模型的模式，已成为人工智能行业的普遍趋势。

OpenAI安全/对齐模型发布

14:52

Alibaba Cloud@alibaba_cloud

精选65

Qwen3.6-Plus 现已在 @togethercompute 上线。快来使用吧。

智能体模型发布编码

推荐理由：Qwen 这次步子不小，直接把百万上下文、多模态推理和 agent 能力整合进一个模型，做 coding agent 的终于不用再拼拼凑凑了。

13:45

宝玉@dotey

54

OpenAI将推出GPT-5.5-Cyber网络安全模型

Sam Altman 刚宣布，OpenAI 将在未来几天向“关键网络安全防御者”推送 GPT-5.5-Cyber，一个专门为网络安全打造的前沿模型。他说 OpenAI 会和整个行业生态及政府合作，建立可信的访问机制，目标是尽快帮助保护企业和基础设施。

OpenAI模型发布

13:13

Yuchen Jin@Yuchenj_UW

51

OpenAI 构建 GPT-5.5-Cyber 模型是因为 Anthropic 构建了 Mythos。白帽与黑帽能量。

AnthropicOpenAI大佬观点安全/对齐

13:09

Sam Altman@sama

69

我们即将在未来几天内向关键网络安全防御者推出GPT-5.5-Cyber，这是一个前沿网络安全模型。我们将与整个生态系统及政府合作，为网络安全领域探索可信访问机制；我们希望迅速帮助企业和基础设施提升安全防护。

OpenAI安全/对齐模型发布

10:57

Baidu Inc.@Baidu_Inc

精选65

百度ERNIE 5.1 Preview模型正式上线。该模型采用更轻量高效的架构，在总参数量压缩至前代约1/3、激活参数量约1/2的同时，仅消耗可比模型约6%的预训练成本，实现了在其规模下的领先基础性能。根据@arena的Text Arena榜单，ERNIE 5.1 Preview在全球总排名第13位，并位列中国实验室第一。其在多个细分领域进入全球前十，特别是在法律与政府领域排名第一。百度预告将在2026年的Baidu Create大会上发布更多ERNIE模型更新。

推理模型发布

推荐理由：ERNIE 5.1 Preview 把参数量砍到前代的 1/3，性能还稳住了，6% 的训练成本近乎白嫖，国产模型打榜的意义不大，但这效率提升对做应用落地的人来说是实打实的好处。

09:39

Greg Brockman@gdb

65

GPT-5.5将于5月5日举办派对：【引用 @sama】：GPT-5.5要为自己办个派对。它选了5月5日下午5：55作为日期和时间。如果想参加，请在此告知：https：//luma.com/5.5 Codex将协助团队从回复中挑选参与者。5.5对派对提了些不错的想法/要求，我们会落实。

OpenAI行业动态

09:34

IT之家（RSS）

64

万亿级综合旗舰模型：蚂蚁集团百灵大模型开源 Ling-2.6-1T

蚂蚁集团正式开源百灵大模型万亿级综合旗舰模型 Ling-2.6-1T。该模型不单纯追求参数规模，而是通过MLA与Linear Attention混合架构等创新，系统性优化智效比与复杂任务执行能力。其核心是在更低Token开销下实现强综合智能，减少对冗长思考链的依赖，并在AIME26、SWE-bench Verified等多个执行类基准测试中达到开源SOTA水平。模型具备完整的工程落地能力，并与主流Agent框架兼容，旨在成为可部署于真实业务系统的底座。为方便体验，其在OpenRouter平台的免费API调用服务将延期一周。

开源生态推理模型发布编码

关联讨论 1 条

08:00

HuggingFace Daily Papers（社区热门论文）

62

MiniCPM-o 4.5：迈向实时全双工全模态交互

当前多模态大语言模型在交互范式上存在瓶颈，感知与响应分离且缺乏主动性。MiniCPM-o 4.5 通过 Omni-Flow 统一流式框架，将多模态输入输出对齐到共享时间轴，实现实时全双工全模态交互，支持同时感知与响应，并能基于对动态场景的连续理解主动发出提醒或评论。该模型参数量为 90 亿，在视觉语言能力上接近 Gemini 2.5 Flash，在全模态理解上超越 Qwen3-Omni-30B-A3B，且语音生成更优、计算效率显著更高。得益于高效的架构设计和推理优化，模型可在内存小于 12GB 的边缘设备上实现实时全双工全模态交互。

多模态模型发布端侧论文/研究

01:42

Ant Ling@AntLingAGI

55

Ling-2.6-1T正式开源，来自@AntLingAGI。该模型拥有1T总参数和63B活跃参数，专为实际生产设计，具有token高效性，便于开发者测试、部署和定制。从Ling-2.6-flash升级到1T规模，实现了从快速推理到更强推理的跨越。主推文强调，结合@opencode等工具展示了酷炫演示，体现了模型与现有工具的兼容性和实用性，并对@novita_labs的合作发布表示感谢。

开源/仓库推理模型发布

01:42

Ant Ling@AntLingAGI

53

谢谢Adina~ Token效率是引领下一阶段的关键特性。我们需要明智且高效地消耗token，才能使整个行业可持续发展。🤗🤗

开源/仓库推理模型发布

01:42

Ant Ling@AntLingAGI

精选72

SGLang团队（隶属于LMSYS Org）揭示了其旗舰指令模型实现快速、高效、大规模执行的关键在于可靠的基础设施与针对性优化。团队宣布对AntLingAGI发布的Ling-2.6-1T万亿参数模型提供Day-0支持。该模型采用快速思考方法，在保持质量的同时，成本可比同类模型降低约4倍，并在AIME26和SWE-bench基准测试中达到SOTA水平。它专为高级编码、复杂推理和大规模智能体工作流设计，具备万亿参数能力与即时模型延迟。团队正持续进行优化，以进一步提升性能。

智能体推理模型发布编码

推荐理由：万亿参数做到即时延迟和4倍成本优势，还有SWE-bench SOTA，这份承诺如果兑现，会改变大规模Agent部署的性价比计算。值得去cookbook跑一下验证。

00:42

Hacker News 热门（buzzing.cc 中文翻译）

63

Mistral Medium 3.5

Mistral 发布了其最新模型 Mistral Medium 3.5。该模型在 Hacker News 社区获得了显著关注，收获了 125 个投票。发布信息通过官方新闻页面公布，标志着 Mistral 在模型迭代上的又一次更新。

智能体模型发布

00:40

Mistral AI：News（网页）

精选76

Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体

Mistral AI推出旗舰模型Mistral Medium 3.5，这是一个128B参数的密集模型，拥有256K上下文窗口，在SWE-Bench Verified上获得77.6%的分数。该模型现作为Vibe和Le Chat的默认引擎，并驱动两项新功能：Vibe远程编程智能体可将编码任务移至云端异步并行执行，用户可通过CLI或Le Chat启动并在完成后接收通知；Le Chat的新工作模式则是一个由该模型驱动的智能体，能处理研究、分析和跨工具操作等多步骤复杂任务。这些更新旨在将开发者从本地线性任务中解放出来，提升工作效率。

智能体开源生态模型发布编码

推荐理由：Mistral 把 coding agent 从本地搬到云端并行跑，Medium 3.5 是第一个真正为长时任务设计的旗舰合并模型，SWE-Bench 77.6% 加上四卡可自部署，做 coding agent 的团队该认真看看这家的路线了。

4月29日

23:42

Ant Ling@AntLingAGI

精选71

Ling-2.6-1T万亿参数模型开源，主打令牌高效

AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构，核心设计理念是“令牌高效”，旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化，具备可靠的多步骤执行能力，在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化，部署便捷，兼容广泛的智能体框架，适用于从代码生成到错误修复等多种任务。

开源/仓库推理模型发布部署/工程

关联讨论 2 条

推荐理由：蚂蚁把万亿参数模型开源了，但强调的不是大，而是省 token，这对成本敏感的生产环境是真正的性价比之选，做 agent 的可以上手测测。

23:40

TestingCatalog News 🗞@testingcatalog

63

MISTRAL 🚨： Mistral AI 发布了 Mistral Medium 3.5，这是一个拥有 256k 上下文窗口和可配置推理算力的 128B 密集开放权重模型。 Mistral Medium 3.5 现已在 Mistral Vibe 和 Le Chat 上可用。

开源生态推理模型发布

23:10

Artificial Analysis@ArtificialAnlys

63

IBM发布三款高效非推理模型Granite 4.1，采用Apache 2.0开源许可

IBM发布了三款采用Apache 2.0许可的Granite 4.1开源模型（30B、8B、3B）。其核心特点是极高的令牌效率，例如8B模型运行智能指数仅需4M输出令牌，远低于同类模型。在开放性指数上，三款模型均获得61分，领先多数同行。但高效率也带来了智能指数的相对折衷，其得分低于Qwen3.5、Gemma 4等竞品。不过，与上一代Granite 4.0系列相比，新模型的智能表现仍有提升。该系列模型拥有128K令牌的上下文窗口，主要面向企业和边缘部署，可通过WandB、Replicate和Hugging Face获取。

Hugging Face开源生态模型发布

关联讨论 1 条

22:42

Ant Ling@AntLingAGI

59

此前在OpenRouter上备受喜爱的快速模型"elephant-alpha"现已永久保留并正式开源，命名为Ling-2.6-flash。该模型由novita_labs驱动，旨在提供稳健且高性价比的性能。它专为现实世界智能体工作流打造，拥有1040亿总参数和74亿活跃参数，并提供多种精度版本以适应不同部署需求。其核心优势包括高达每秒215个令牌的生成速度、仅需1500万令牌即可完成完整智能评估的高效令牌利用率，以及在编码、文档处理和轻量级智能体任务中的强大执行能力。同时，模型在中文切换和主流编码框架兼容性方面体验更佳。为庆祝发布，现提供20%的折扣。

智能体开源生态模型发布

22:37

歸藏(guizang.ai)@op7418

54

Deepseek 的多模态模型全量了。目前可以在网页版的识图模式尝试，看起来是一个单独的多模态模型

DeepSeek多模态模型发布

关联讨论 1 条