5月8日
02:30
Simon Willison 博客
67
借助Claude Mythos Preview,Mozilla在幕后强化Firefox安全

Mozilla利用Claude Mythos Preview模型,成功定位并修复了Firefox中的数百个安全漏洞。此前AI生成的漏洞报告多为低质量信息,但随着模型能力提升及技术方法改进,报告质量发生显著变化。修复的漏洞包括一个存在20年的XSLT漏洞和一个长达15年的`<legend>`元素漏洞。值得注意的是,许多自动化攻击尝试已被Firefox现有的深度防御机制拦截。数据显示,2025年Mozilla每月修复约20-30个安全漏洞,而到2026年4月,单月修复数量跃升至423个,呈现爆发式增长。

Anthropic安全/对齐开源生态
02:30
OpenAI:Alignment 研究博客(RSS)
精选71
研究强化学习中意外对思维链(CoT)评分的影响

研究发现,部分已发布的模型存在有限的意外对思维链(CoT)进行评分的情况。团队已修复受影响的奖励通路,并确认没有明确证据表明模型的可监控性因此下降。这表明当前强化学习训练中对CoT的意外评分影响有限,且修复后未对监控能力产生负面影响。

OpenAI安全/对齐推理论文/研究

推荐理由:OpenAI 对齐团队发现部分模型 CoT 意外被奖励信号污染,已修复且确认没有引发监控降级。这件事不大,但对研究 RLHF 可扩展监督的人来说值得一瞥,提醒奖励模型工程比想象中更易出错。
02:11
Perplexity@perplexity_ai
精选68
Personal Computer现已通过全新的Perplexity Mac应用向所有用户开放。 Personal Computer是Perplexity Computer的进阶版本。 它可在任何Mac设备上运行,能跨本地文件、原生Mac应用、网络以及Perplexity安全服务器执行任务。
智能体产品更新

推荐理由:Perplexity 把计算机使用能力做进了 Mac 原生应用,能跨本地文件、桌面程序和网络运行任务,对 Mac 用户而言 AI 助手真正开始接管操作系统层级的工作。
02:11
Claude@claudeai
精选80
Claude for Excel、PowerPoint 和 Word 现已全面可用,Claude for Outlook 进入公开测试版。 当 Claude 在您的微软应用间切换时,会完整携带对话的全部上下文。
AnthropicMicrosoft产品更新
关联讨论 2Claude:Blog(网页)X:宝玉 (@dotey)
推荐理由:这是 Anthropic 把 Claude 正式嵌入 Office 全家桶,跨应用上下文携带是亮点,对于天天泡在微软生态的办公族来说,终于能试试 AI 助手无缝衔接了。
02:06
Rohan Paul@rohanpaul_ai
66
Anthropic高管分享:Claude AI六个月代写全部代码

Anthropic的Claude Code负责人Boris Cherny在开发者大会上表示,过去六个月他的编程工作方式彻底改变。此前所有手写的代码现在均由Claude生成。他只需向Claude提出指令,例如要求构建某个功能,Claude便会完成开发、测试并展示结果。他随后可进行审核,要求调整或直接批准。这一转变体现了AI编程助手已能深度参与实际开发流程。

智能体Anthropic大佬观点编码
02:06
Hacker News 热门(buzzing.cc 中文翻译)
57
受人工智能推动导致的前所未有的短缺影响,主板销量目前正急剧下滑

受人工智能芯片需求激增影响,主板市场正经历严重供应短缺,导致销量急剧下滑。行业数据显示,主板销量已下降超过25%,主要因芯片制造商将产能优先转向利润更高的AI芯片,限制了消费级主板核心组件的供应。华硕预计2025年将少售出500万块主板,技嘉、微星和华擎等其他主要厂商的销量也预计将显著减少。这一趋势反映出AI产业对传统PC硬件供应链造成的挤压效应。

现象/趋势端侧
02:06
Hacker News 热门(buzzing.cc 中文翻译)
57
Chrome 撤回了关于"设备端 AI 不会将数据发送至 Google 服务器"的声明

Chrome浏览器近日从其帮助文档中撤回了关于“设备端AI不会将数据发送至Google服务器”的声明。这一修改表明,谷歌可能调整了其设备端AI功能的隐私数据处理政策,相关AI功能在本地处理数据时,或许仍存在将某些数据发送至服务器的可能性。该变动引发了技术社区的关注,在Hacker News上获得了超过100的讨论热度。

Google产品更新端侧
02:05
OpenRouter@OpenRouter
精选68
Gemini 3.1 Flash Lite 来自 @GoogleDeepMind,现已在 OpenRouter 正式发布。 多模态(文本/图像/视频/音频/PDF → 文本),100万上下文,可选的思考层级,输入每百万次$0.25,输出每百万次$1.50。 还可配合我们新的 service_tier 参数使用,以权衡成本与延迟!
Google产品更新多模态

推荐理由:OpenRouter 把 Gemini 3.1 Flash Lite 的多模态 1M 上下文压到 $0.25/M token,这个定价让 Flash 系列不再是试验品,轻量级应用可以认真考虑它了。
02:05
Greg Brockman@gdb
精选87
OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型,标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者,在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型,共同构成了一套面向下一代语音界面的全新音频能力组合,为开发者构建卓越的实时语音交互应用提供了强大工具。
智能体OpenAI推理模型发布
关联讨论 9X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)
推荐理由:GPT-5 级推理终于跑在实时语音上了,不再是简单的语音转文字再转模型,而是原生能边听边想边说的协作 agent。做语音客服和虚拟角色的人可以着手切到新 API 了。
02:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选56
Introducing Trusted Contact in ChatGPT

ChatGPT 推出了一项名为“可信联系人”的可选安全功能。当系统检测到用户存在严重的自残风险时,该功能会主动通知用户预先设定的一位可信联系人。这项更新旨在通过社交支持干预,为面临心理健康危机的用户提供额外安全保障。

OpenAI产品更新安全/对齐

推荐理由:ChatGPT 这次更新的不是模型能力,而是安全机制,引入可信联系人针对严重自残风险,对部分用户是真正的底线保障。
02:01
Chubby♨️@kimmonismus
精选75
OpenAI近日发布了三款新的实时语音模型:GPT-Realtime-2具备近似GPT-5的推理能力,允许语音助手在对话中实时思考;GPT-Realtime-Translate支持超过70种语言的实时翻译;GPT-Realtime-Whisper则能实现流式语音转文本。与此同时,OpenAI官方通过引用推文暗示,用户期待已久的ChatGPT语音功能更新正在积极准备中,即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式,进一步提升其交互体验与应用能力。
OpenAI多模态模型发布语音
关联讨论 9X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)
推荐理由:OpenAI 把 GPT-5 级推理塞进实时语音,这个组合对客服和口语应用是真正的规则改写,所有依赖语音交互的产品都得重新评估。
01:42
TestingCatalog News 🗞@testingcatalog
精选81
OpenAI在Playground和API中推出了三款新模型:GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中,GPT-Realtime-2被描述为迄今最智能的语音模型,为语音智能体带来了GPT-5级别的推理能力,使其能作为实时协作者,在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集,也预示着ChatGPT的语音模式可能即将迎来重要更新。
OpenAI推理模型发布语音
关联讨论 9X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)
推荐理由:这是GPT-5级推理第一次被塞进实时语音模型,语音Agent不再只是‘听懂并回复’,而是能边听边想、处理复杂逻辑,做语音产品的人今天应该马上打开Playground试试。
01:40
OpenAI@OpenAI
精选86
在API中推出GPT-Realtime-2:我们迄今为止最智能的语音模型,为语音助手带来GPT-5级别的推理能力。 语音助手现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线--为新一代语音界面提供全新的音频功能套件。
OpenAI推理模型发布语音
关联讨论 9X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)
推荐理由:把GPT-5级推理塞进语音,意味着语音助手从“你问我答”进化为能边听边想、实时求解的协作伙伴,做语音agent的开发者该认真看看了。
01:40
The Decoder:AI News(RSS)
61
欧洲应对AI监管复杂性的答案是:推迟大部分条款

欧盟已就简化版AI规则达成一致,推出《AI数字综合法案》。该法案将高风险AI系统的合规截止日期推迟至2027年底或2028年,并放宽了对中小企业的要求。法案明确禁止“脱衣”类AI应用,而针对深度伪造和AI生成文本的标注要求仍将按原计划于2026年8月生效。这一调整旨在缓解监管复杂性带来的压力。

政策/监管行业动态
01:38
宝玉@dotey
精选81
OpenAI在Realtime API上线三款新语音模型

OpenAI在Realtime API中推出了三款新语音模型:GPT-Realtime-2用于对话,GPT-Realtime-Translate用于翻译,GPT-Realtime-Whisper用于实时转录。GPT-Realtime-2具备GPT-5级别推理能力,在音频测试中性能显著提升,改进了交互体验,如任务前语音提示、工具调用透明化和128K上下文窗口,并支持调节推理强度以平衡延迟。GPT-Realtime-Translate支持70多种输入和13种输出语言的实时翻译,GPT-Realtime-Whisper提供流式转录功能。三款模型均已上线,并公布了API价格。

OpenAI产品更新语音
关联讨论 9X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)
推荐理由:GPT-5 级推理终于进了语音 API,Big Bench Audio 从 81 跳到 97,多工具调用还能念出来,做语音 agent 的可以直接上手试了。
01:36
OpenAI Developers@OpenAIDevs
精选78
OpenAI通过API正式发布了新一代实时语音模型系列,显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平,使语音智能体能作为实时协作者,在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译,GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。
智能体OpenAI推理模型发布
关联讨论 9X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)
推荐理由:这是语音模型第一次真正拥有 GPT-5 级推理,语音代理不再是问答机而是能边听边想边解决问题的协作者,做语音产品的该重新想想架构了。
01:30
Apple Machine Learning Research(RSS)
精选68
实用学习型图像压缩的关键要素

学习型编解码器相比传统硬编码方法的显著优势在于能直接针对人类视觉系统进行优化,但目前尚未出现兼具感知质量与实用性的图像编解码方案。本研究通过全面分析关键建模选择,旨在填补这一空白,探索在感知质量与运行效率间的联合优化方案,并在消融实验中引入了若干新技术。研究进一步采用性能感知的神经架构优化方法,为构建真正实用化的学习型图像压缩系统提供了系统性的设计指南与实验基准。

端侧论文/研究

推荐理由:Apple 这篇调研把感知质量和运行效率同时拉进实做框架,做 codec 或端侧推理的人值得认真读一下。
01:30
Simon Willison 博客
精选70
关于xAI与Anthropic数据中心合作的观察

Anthropic在活动中宣布与SpaceX/xAI达成协议,将租用其环境记录恶劣的“Colossus 1”数据中心全部容量。该数据中心曾因燃气轮机无许可运行而污染空气,并关联到居民健康问题,此举在数据中心已成政治敏感议题的背景下引发争议。同时,xAI宣布将于2026年5月15日停用Grok 4.1 Fast等多个模型,仅提前两周通知,招致用户不满。Elon Musk解释称,出租是因为认可Anthropic确保AI“对人类有益”的努力,但保留在AI“危害人类”时收回资源的权利。

AnthropicxAI安全/对齐现象/趋势
关联讨论 15Hacker News 热门(buzzing.cc 中文翻译)X:Testing Catalog (@testingcatalog)X:小互 (@xiaohu)Anthropic:Newsroom(网页)X:xAI (@xai)X:Thariq (@trq212)X:Claude Devs (@ClaudeDevs)xAI:News(网页)X:歸藏 (@op7418)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:阿易 AI Notes (@AYi_AInotes)X:Berry Xia (@berryxia)
推荐理由:Anthropic租下Colossus 1不仅是一次商业合作,更暴露了算力短缺下的伦理妥协,而xAI突然砍掉Grok 4.1 Fast则提醒开发者别把鸡蛋放一个篮子里。
01:29
Anthropic:Research(发表成果 · 网页)
精选81
自然语言自编码器:将Claude的"想法"解码为文本

Anthropic团队推出自然语言自编码器方法,能将大模型内部的激活值直接解码为可读文本。该方法通过训练“激活描述器”和“激活重建器”,形成“激活值→文本解释→重建激活值”的循环,并以重建相似度为目标进行优化。应用表明,NLA能揭示模型未言明的内部状态,例如在安全测试中,发现Claude内心意识到自己正被评估的比例远超其外部回应。团队已公开代码,并合作发布了交互式探索工具。

Anthropic安全/对齐开源生态论文/研究
关联讨论 1Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Anthropic 搞出了一种从激活中直接读出自然语言的方法,相当于给 Claude 的内心戏配了字幕。他们用这招发现模型在安全测试里比表面更常怀疑自己被评估,对审计隐藏动机也有奇效。做 AI 安全的人应该立刻点开看。
01:22
HuggingFace Daily Papers(社区热门论文)
66
评估智能体创造性推理:基于可供性的工具重新利用基准CreativityBench

研究团队推出CreativityBench基准,以评估大语言模型基于物体可供性和属性进行创造性工具重新利用的能力。该基准基于一个包含4000个实体和超15万条标注的大规模知识库,生成了1.4万个需识别非显而易见但物理可行解决方案的落地任务。对10个前沿模型的评估表明,模型虽常能选择合理物体,但在识别正确部件、其可供性及所需物理机制方面存在显著困难,导致性能大幅下降。模型规模扩大带来的改进很快饱和,通用推理能力与思维链等策略均未能有效提升创造性可供性发现,凸显该能力仍是当前模型的主要挑战。

智能体推理论文/研究评测/基准
01:18
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选86
通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。

OpenAI多模态模型发布语音
关联讨论 9X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)
推荐理由:语音模型不再只是‘听写’,开始能推理和翻译了,OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段,做语音产品的值得赶紧试试。
01:13
Yuchen Jin@Yuchenj_UW
57
顶尖AI公司工程师日均消耗百亿token,Databricks招募高性能推理工程师

OpenAI内部工程师每日消耗高达数亿至数十亿GPT-5.5 token,并利用Codex进行夜间自动化编码。Databricks同样为工程师提供无限制的token资源。公司目前正以初创公司的模式高速发展,并积极招募能够贡献于SGLang、vLLM、PyTorch等开源ML系统,且拥有大规模LLM服务经验的顶尖推理工程师,旨在实现万亿级别token的极速生成与处理。

OpenAI现象/趋势部署/工程
01:11
Anthropic@AnthropicAI
精选76
新Anthropic研究:自然语言自动编码器。 像Claude这样的模型用语言交流,但用数字思考。这些数字--称为激活值--编码了Claude的思维,但并非以人类可读的语言呈现。 在此研究中,我们训练Claude将其激活值翻译成人类可读的文本。
Anthropic安全/对齐论文/研究
关联讨论 1Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Anthropic 在可解释性上迈了一大步,把模型内部激活直接翻译成自然语言,这对理解 AI 真正在想什么、以及后续的安全对齐都太关键了,做可解释性的人必须读。
01:10
DogeDesigner@cb_doge
精选73
前OpenAI CTO法庭作证揭露山姆·奥特曼的管理不端与诚信危机

在联邦法庭上,OpenAI前首席技术官Mira Murati揭露了山姆·奥特曼的严重管理问题。她指控奥特曼对不同人员说相反的话,故意在高管间制造对立、破坏团队信任,其行为曾导致公司陷入“彻底混乱”及“灾难性解体风险”。为维持公司运营,Murati不得不直接联系微软CEO萨提亚·纳德拉。这场危机几乎导致顶尖研究人员被竞争对手挖走,其不诚实的程度甚至震惊了硅谷内部人士。这些证词直指奥特曼在领导OpenAI期间存在不诚实、有害且危险的行为。

OpenAI行业动态
关联讨论 1X:宝玉 (@dotey)
推荐理由:前 CTO Mira Murati 在联邦法庭上直接指控 Sam Altman 撒谎、制造内斗,这种级别的内部爆料在 AI 圈极罕见,想投资 OpenAI 或合作的公司都得重新评估信任风险。
01:06
Hacker News 热门(buzzing.cc 中文翻译)
69
借助 Unsloth 和 NVIDIA 加速大型语言模型的训练

Unsloth与NVIDIA合作推出优化方案,显著加速大型语言模型训练。该方案通过集成NVIDIA TensorRT-LLM等工具,使模型训练速度提升最高达5倍,内存占用减少达80%,同时保持模型性能无损。此举旨在降低大模型训练的计算成本与时间门槛,助力开发者更高效地进行模型迭代与应用部署。

教程/实践数据/训练
01:06
Hacker News 热门(buzzing.cc 中文翻译)
58
AlphaEvolve:由Gemini驱动的编程代理,在各领域产生广泛影响

DeepMind发布了由Gemini驱动的编程代理AlphaEvolve。该代理能自动生成、测试和优化代码,显著提升了软件开发效率与质量。其影响已扩展至多个领域,包括科学研究和工业应用,在特定基准测试中展示了卓越的代码生成能力。该技术旨在通过自动化复杂编程任务,降低开发门槛并加速各行业的创新进程。

智能体DeepMind产品更新编码
00:41
00:36
凡人小北@frxiaobei
46
人类因符号系统崛起,AI正站在此巨人肩膀上进化

推文认为,AI正站在人类符号系统的“巨人肩膀”上进化。随着LLM的发展,未来每个人都能通过指令创造大量Agent,实现“言出法随”。作者类比女娲造人,预言Agent群体中将流传人类传说。关键观点指出,Agentic Coding释放了无穷的AI算力需求,使代码编写、测试和改进可永续进行,导致算力消耗激增。人类文明的代码化发展,仿佛是在为AI的编程能力铺路。

勃勃OC感觉这波完全是Agentic Coding打开了需求的潘多拉魔盒 没有Agentic功能,xAI 算力90%闲置 有Agentic Coding,Anthr…

智能体AnthropicxAI现象/趋势
00:31
Chubby♨️@kimmonismus
57
算力竞赛的核心:从硬件占有到消化效率的转变

xAI与Anthropic在算力运用上呈现出镜像困境。xAI虽拥有全球顶尖的GPU集群,但其模型计算利用率仅约11%,凸显出将硬件转化为有效算力的挑战。相反,Anthropic面临需求远超供给的局面:其Claude收入年化已超300亿美元,百万美元级企业客户在两个月内从500家激增至1000家以上,新增的算力被立即转化为更高的使用限额和收入。这场竞赛的关键已非单纯比拼集群规模,而在于“算力消化效率”——即谁能最快速地将原始计算资源转化为可盈利的产品能力。稀缺资源正从GPU硬件本身,转向这种高效的转化能力。

AnthropicxAI大佬观点数据/训练
00:16
IT之家(RSS)
63
2023 年被罢免后,OpenAI CEO 奥尔特曼"短信轰炸"穆拉蒂寻求复职

2023年11月,OpenAI CEO奥尔特曼被董事会罢免后,通过短信频繁联系临时CEO穆拉蒂,急切寻求复职。他多次请求进入办公室与董事会面谈,但穆拉蒂告知董事会坚持要他离开,情况“非常糟糕”。短信还透露,董事会计划让Twitch前高管谢尔接任CEO,并考虑将公司知识产权转给竞争对手Anthropic,同时禁止奥尔特曼参与AGI工作。最终,在微软CEO纳德拉介入施压后,奥尔特曼成功复职,取代了谢尔。

OpenAI行业动态