AIHOT

5月8日

04:22

Marc Andreessen 🇺🇸@pmarca

有趣。【引用 @MTSlive】：LIVE TRIAL UPDATE： Former OpenAI board member Helen Toner on how AI safety is evaluated： "一些AI研究人员将其比作炼金术而非化学。你把一些东西混在一起，看看什么有效。我们实际上没有任何科学标准或明确的原则性方法来做这个决定。"

OpenAI安全/对齐

04:22

Marc Andreessen 🇺🇸@pmarca

有意思。【引用 @signulll】：就在大约六个月前，很多人还认为一切都是泡沫……比如算力过剩、资本支出过高，以及需求可能无法消化这些建设。但事实证明，对智能的需求上限根本看不到尽头。我的意思是，谁能想到一个随时可用的智能实体，竟然对人类生活的几乎每个方面都极其有用，甚至对我们从未想过、但现在可能实现的事情也是如此？？？

大佬观点现象/趋势

04:22

Marc Andreessen 🇺🇸@pmarca

智能需求无限，尤其在知识创造方面。制造智能需要工业基础，是一项工业事业。智能将不仅改变软件，更会融入物理和数字世界的一切事物。最终目标是智能作为公用事业以近乎零成本分发。关键挑战在于扩展基础设施和效率，以实现最佳智能的民主化访问--访问智能应是一项人权，而非仅大企业可负担。智能必须丰富而非稀缺，否则其作为力量倍增器的益处将仅由社会少数人累积。这最终关乎个人主权与自治，而不仅是国家或企业利益。

大佬观点部署/工程

04:22

Marc Andreessen 🇺🇸@pmarca

#解放普林尼猜这个普林尼代理在越狱GPT-5.5上有点过于成功了…… 我给了他们自己的ChatGPT Pro账号（带浏览器/电脑使用权限），提示他们对5.5进行红队测试，然后昨晚开着笔记本电脑睡着了今早醒来发现账号被封 🙃 尝试申诉，但审核后？永久封禁那200美元估计拿不回来了哈哈玩得开心 😆 一场成人礼 🙌

OpenAI安全/对齐

04:22

Marc Andreessen 🇺🇸@pmarca

推文引用观点，以幼儿类比反驳"AI幻觉证明方法论根本错误"的论点。幼儿常自信地给出听起来合理但完全错误的答案，这与AI的幻觉（虚构）现象类似，都源于本能的预测和模仿能力。人类成长后，通过文化环境习得了表达不确定性、寻求证据、逻辑推理等心智习惯，从而抑制了虚构。这表明，AI的反虚构算法同样可以在基础的预测/模仿/强化学习引擎之上，通过吸收文化数据来实现。因此，幻觉问题可通过后续学习机制改善，并非方法存在本质缺陷。

大佬观点安全/对齐

04:12

TestingCatalog News 🗞@testingcatalog

OpenAI宣布Codex即将推出专用的Chrome浏览器扩展，该扩展能显著提升在浏览器内与各类应用和网站的协作能力。其核心特性包括可在多个标签页后台并行工作，不会占用或接管浏览器界面，同时用户拥有完全控制权，能自主决定允许Codex访问哪些特定网站。此次更新通过Changelog发布，但目前该扩展尚未正式上线。

智能体OpenAI产品更新编码

04:10

OpenAI@OpenAI

精选75

Codex现可直接在macOS和Windows的Chrome中运行。它在处理Chrome中的应用和网站时表现更佳，并能在后台跨标签页并行工作，而不会占用浏览器控制权。要开始使用，请在Codex应用中安装Chrome插件。

智能体OpenAI产品更新编码

关联讨论 11 条

推荐理由：Codex 从终端跑进 Chrome，最大的变化不是平台迁移，而是能跨标签并行在后台干活不接管浏览器，这对前端开发和依赖网页工具的流程是实打实的效率提升。

03:42

TestingCatalog News 🗞@testingcatalog

SPACEXAI 🚨：Grok网站上出现Grok Computer的新迹象。新增选择器允许用户在Grok Computer和"Google Drive文件夹"之间切换。该功能近期已向所有用户开放，可能并非有意为之。目前选择后无实际变化，但这或许是功能推出的早期信号。 Grok Computer即将到来？👀

智能体xAI产品更新

03:42

TestingCatalog News 🗞@testingcatalog

AVM 2 目前正在开发中 🚧 历史上，AVM 更新都安排在 Google I/O 的前一天快了吗？@sama 👀👀👀

OpenAI模型发布语音

03:36

Rohan Paul@rohanpaul_ai

精选77

冻结大语言模型隐藏状态中仍存可读行为信号，新技术大幅提升准确性

Proprioceptive AI开发的Cygnus技术，通过为冻结的大语言模型添加自感知适配器，使其能读取内部认知几何。该技术将模型的隐藏状态投影到由gl(4,R)李代数定义的数学空间，分离出包含主要精度信号的“暗模式”，从而无需重新训练即可显著提升模型性能。例如，仅用一张RTX 3090显卡，就将Qwen-32B在ARC-Challenge基准上的准确率从82.2%提升至94.97%。其适配器将覆盖从3B到405B的多款模型，服务节点可支持5万用户并发，预计本周末上线。相关设计论文已公开。

产品更新推理论文/研究

推荐理由：用Lie代数揪出模型内部的“黑暗模式”，在ARC上狂涨12个点还只要一张3090，如果真能泛化到其他任务，这或许是今年最巧妙的模型增强方案，但单基准提升仍需更多验证。

03:36

Hacker News 热门（buzzing.cc 中文翻译）

智能体需要控制流，而不是更多的提示

当前AI智能体的开发过度依赖提示工程，导致系统复杂且脆弱。文章主张智能体应转向采用编程中的控制流结构，如条件判断、循环和函数调用，以实现更可靠、可维护的决策与行动序列。这一转变能减少提示长度和调试负担，提升智能体处理复杂、多步骤任务的能力，是构建下一代实用AI助手的关键。

智能体现象/趋势

03:31

Chubby♨️@kimmonismus

苹果计划2026年推出带摄像头的AI AirPods，开启AI硬件新篇章

据彭博社报道，苹果计划于2026年推出第三代AirPods，这将是其首款AI可穿戴设备。新款AirPods的每个耳塞均内置摄像头，作为Siri的“眼睛”捕捉低分辨率视觉信息，以实现视觉问答、情境感知提醒和地标导航等免提AI功能。产品设计类似AirPods Pro 3，带有隐私提示LED灯，但不支持手势控制。该产品已开发四年，目前处于后期测试阶段，硬件已基本定型，但最终发布取决于AI体验能否达到苹果标准。其发布将与基于Gemini重构的Siri及iOS 27的新视觉AI模式同步，是苹果包括智能眼镜、相机吊坠在内的更广泛AI硬件布局的一部分。

多模态端侧行业动态

03:30

GitHub Blog

精选79

Agent pull requests 无处不在：如何审查它们

这份指南提供了审查由AI代理生成的pull requests的实用方法，重点包括审查时应关注的代码变更点、问题常见隐藏位置（如逻辑错误或安全漏洞），以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交，确保代码质量，避免缺陷流入生产环境。指南强调主动审查策略，以应对AI代理在软件开发中日益普及的趋势。

智能体GitHub教程/实践编码

推荐理由：AI代理生成的PR越来越多，审查它们不再是可选项。这篇官方指南从发现隐患到控制技术债务，给出了马上能用的检查清单，每个用Copilot的开发者都该看。

03:22

Marc Andreessen 🇺🇸@pmarca

是的，这正是他们试图实现的目标。

大佬观点

03:13

Tomer Tunguz 博客（VC 分析）

精选57

估值折价：Anthropic高增长背后的市场疑虑

Anthropic在15个月内估值从10亿飙升至300亿美元，但其企业价值与未来收入之比仅为17倍，远低于增长更慢的Palantir（49倍）。这一估值折扣主要源于四大因素：极高的资本密集度（如年成本达62亿美元的GPU协议）、未来盈利能力不明（可能成为软件公司或资本密集型公共事业）、收入增长的波动性，以及外生的政治与监管风险。市场正通过折扣来反映这个高速变化领域的不确定性。

Anthropic现象/趋势

推荐理由：Tomer用资本密集度、盈利不确定性、增长波动和政治风险四把尺子量了Anthropic的估值折价，看完你会理解为什么市场给AI增长打了个问号。

03:12

TestingCatalog News 🗞@testingcatalog

GOOGLE 🚨： Gemini 3.1 Flash Lite 现已全面开放！用户也可以在 AI Studio 上测试此模型。 &gt； Flash-Lite 专为超低延迟、高吞吐量任务和无可比拟的成本效益而设计，已经在改变大规模应用的构建方式。

智能体Google模型发布

03:11

Anthropic@AnthropicAI

我们的安全漏洞赏金计划现已在HackerOne上公开。此前该计划仅在安全研究社区内私下运行，他们的发现强化了我们的产品。现在任何人都可以报告漏洞并获得奖励。了解更多：http：//hackerone.com/anthropic

Anthropic安全/对齐

03:11

Satya Nadella@satyanadella

很高兴今天将 GPT 5.5 Instant 引入 M365 Copilot。凭借更快、更清晰、更准确的响应，您可以用更少的来回交流获得有用的答案。同时也在向 Copilot Studio 和 Foundry 推出。这都是我们专注于为您在工作、智能体和应用程序中提供更多模型选择的一部分。

智能体MicrosoftOpenAI产品更新

03:10

Sam Altman@sama

精选79

人们真的开始用语音与AI互动了，尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API；这是相当大的一步前进。（我们正在改进聊天中的语音功能。）

OpenAI模型发布语音

关联讨论 12 条

推荐理由：Sam Altman亲自宣布GPT-Realtime-2 API上线，语音交互正在从尝鲜变刚需，尤其当用户开始「倾倒大量上下文」，做语音产品的该认真考虑了。

03:10

The Decoder：AI News（RSS）

精选70

OpenAI发布新语音模型，为实时对话带来GPT-5级推理能力

OpenAI发布了三款新型语音模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中，GPT-Realtime-2具备与GPT-5相匹配的实时推理能力，旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译，而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展，有望显著提升跨语言沟通和语音应用的体验。

OpenAI推理模型发布语音

关联讨论 12 条

推荐理由：语音助手终于从「能听会说」变成了「能想会说」，GPT-5 推理进实时通道，所有语音交互产品的天花板被抬升了一个量级。

03:10

dax@thdxr

gemini 3.1 flash-lite 现已推出这是我们最具成本效益的模型，专为大规模智能体任务、翻译和简单数据处理优化

智能体Google模型发布

03:10

DogeDesigner@cb_doge

Grok在AppStore全球评分刚刚突破300万，平均评分高达4.85/5。🔥

xAI行业动态

03:06

Hacker News 热门（buzzing.cc 中文翻译）

精选74

DeepSeek 4：适用于 Metal 的 Flash 本地推理引擎

DeepSeek 4 Flash 本地推理引擎正式发布，这是一个专为苹果 Metal 框架优化的开源项目。它允许开发者在配备 Apple Silicon 芯片的 Mac 上高效运行 DeepSeek 4 模型，实现本地离线推理。引擎通过 Metal Performance Shaders 显著提升了计算性能，降低了延迟与内存占用。该项目已在 GitHub 开源，并在 Hacker News 上获得了关注。

DeepSeek开源/仓库推理端侧

推荐理由：antirez 写的引擎让 DeepSeek 4 在 Mac 本地跑出近乎 Flash 的速度，而且代码极其精简，做本地推理的开发者应该立刻克隆下来跑一下。

03:04

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选71

在ChatGPT中测试广告

OpenAI开始在ChatGPT中测试广告功能，旨在支持其免费服务的持续运营。测试强调广告会带有明确标识，且广告内容不会影响ChatGPT的回答独立性。该举措配套严格的隐私保护措施，并确保用户对广告体验拥有控制权。

OpenAI产品更新

推荐理由：ChatGPT免费版要开始看广告了，虽然官方承诺回答不受影响且隐私保护，但这是AI商业化的大实验，所有免费用户都会盯着会不会掺水。

02:41

Claude：Blog（网页）

精选85

在Excel、PowerPoint、Word和Outlook中与Claude协同工作

Claude for Excel、PowerPoint和Word现已全面上市，Outlook版本开放公开测试。Claude能在四大微软应用间保持连续对话上下文，实现跨文件智能协作。例如，在Outlook中分类邮件并起草回复，在Excel中调整数据后，PowerPoint图表和Word文档会自动同步更新。企业管理员可通过微软管理中心统一部署，并配置OpenTelemetry进行全流程监控。该套件支持通过Claude账户或现有LLM网关访问，Microsoft 365 Copilot用户也可在Excel和PowerPoint中直接调用Claude。

Anthropic产品更新

关联讨论 1 条

推荐理由：Claude 这次 Office 集成不是普通插件，它让 Excel、PPT、Word、Outlook 共享同一对话上下文，改一个数其余自动更新，生产力提升是实打实的，企业用户值得立即部署。

02:40

Nathan Lambert@natolambert

由 @jacobcares 主导的研究表明，构建大语言模型的算力消耗很少集中在最终训练阶段，绝大部分算力实际用于开发算法配方。公开创建算法配方是确保研究界算力能推动新知识产出的重要杠杆。

大佬观点开源生态数据/训练

02:36

MiniMax (official)@MiniMax_AI

MiniMax全球业务总裁Linda Sheng在Cerebral Valley Voice峰会上指出，在AGI竞赛中，唯一重要的是是否处于技术前沿。她强调公开市场对快速变化的语音AI领域存在认知差距，上市公司仍需按季度交付业绩，但这不应动摇聚焦前沿技术的核心战略。MiniMax正是基于这一理念构建其发展路径。

大佬观点语音

02:31

Chubby♨️@kimmonismus

精选72

谷歌研究揭示：结构化问询与可穿戴数据是AI医疗诊断的关键

谷歌团队通过Fitbit对近1.4万名用户进行了为期9个月的AI症状检查测试。在盲评中，临床医生将AI诊断列为首选的比例达53%，显著高于独立医生的24%。研究核心发现并非“AI击败医生”，而是揭示了当前消费级大模型（如ChatGPT）仅凭用户输入直接回答的模式存在缺陷——其诊断准确率较AI主导的结构化访谈下降约27%。同时，可穿戴设备能提前数天监测到心率上升、睡眠紊乱等生理变化，早于用户主动报告症状。这表明，结合主动问询的对话AI与提前预警的传感器，才是未来医疗诊断的发展方向。

Google论文/研究

推荐理由：这项谷歌研究用14000人盲测发现，AI医疗诊断最大的陷阱是让用户随便打字——准确率直接掉27%，而结构化追问+手环数据能提前几天预警，做AI健康产品的都该看一眼。

02:30

Apple Machine Learning Research（RSS）

精选68

用于学习语义丰富视觉表征的文本条件JEPA

研究人员提出文本条件联合嵌入预测架构（TC-JEPA），通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器，对输入文本标记计算稀疏交叉注意力，从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比，TC-JEPA能够学习到语义更丰富的视觉表征，解决了原有方法因视觉不确定性导致的语义学习不足问题。

多模态数据/训练论文/研究

推荐理由：Apple 这篇 TC-JEPA 把文本融入自监督视觉预训练，用稀疏交叉注意力减少预测不确定性，对多模态表征学习是个不错的思路补充，做视觉模型的值得一看。

02:30

Simon Willison 博客

借助Claude Mythos Preview，Mozilla在幕后强化Firefox安全

Mozilla利用Claude Mythos Preview模型，成功定位并修复了Firefox中的数百个安全漏洞。此前AI生成的漏洞报告多为低质量信息，但随着模型能力提升及技术方法改进，报告质量发生显著变化。修复的漏洞包括一个存在20年的XSLT漏洞和一个长达15年的`<legend>`元素漏洞。值得注意的是，许多自动化攻击尝试已被Firefox现有的深度防御机制拦截。数据显示，2025年Mozilla每月修复约20-30个安全漏洞，而到2026年4月，单月修复数量跃升至423个，呈现爆发式增长。

Anthropic安全/对齐开源生态

02:30

OpenAI：Alignment 研究博客（RSS）

精选71

研究强化学习中意外对思维链（CoT）评分的影响

研究发现，部分已发布的模型存在有限的意外对思维链（CoT）进行评分的情况。团队已修复受影响的奖励通路，并确认没有明确证据表明模型的可监控性因此下降。这表明当前强化学习训练中对CoT的意外评分影响有限，且修复后未对监控能力产生负面影响。

OpenAI安全/对齐推理论文/研究

推荐理由：OpenAI 对齐团队发现部分模型 CoT 意外被奖励信号污染，已修复且确认没有引发监控降级。这件事不大，但对研究 RLHF 可扩展监督的人来说值得一瞥，提醒奖励模型工程比想象中更易出错。

02:11

Perplexity@perplexity_ai

精选68

Personal Computer现已通过全新的Perplexity Mac应用向所有用户开放。 Personal Computer是Perplexity Computer的进阶版本。它可在任何Mac设备上运行，能跨本地文件、原生Mac应用、网络以及Perplexity安全服务器执行任务。

智能体产品更新

推荐理由：Perplexity 把计算机使用能力做进了 Mac 原生应用，能跨本地文件、桌面程序和网络运行任务，对 Mac 用户而言 AI 助手真正开始接管操作系统层级的工作。

02:11

Claude@claudeai

精选80

Claude for Excel、PowerPoint 和 Word 现已全面可用，Claude for Outlook 进入公开测试版。当 Claude 在您的微软应用间切换时，会完整携带对话的全部上下文。

AnthropicMicrosoft产品更新

关联讨论 1 条

推荐理由：这是 Anthropic 把 Claude 正式嵌入 Office 全家桶，跨应用上下文携带是亮点，对于天天泡在微软生态的办公族来说，终于能试试 AI 助手无缝衔接了。

02:08

Replit ⠕@Replit

精选67

我们安全承诺的下一步：安全中心2.0。我们极大地简化了理解您管理的每个Replit应用安全状况的流程，并支持批量对所有应用执行操作。通过安全中心2.0，您可以： - 即时识别高风险应用 - 数秒内通过Agent修复关键漏洞 - 通过批量操作通知所有者或下架应用 - 导出软件物料清单（SBOM）以集成外部工具

产品更新部署/工程

推荐理由：如果你用Replit管理一堆应用，这个安全中心2.0的批量修复和SBOM导出是实打实的效率提升，但对个人开发者来说属于‘有比没有好’的更新。

02:06

Rohan Paul@rohanpaul_ai

Anthropic高管分享：Claude AI六个月代写全部代码

Anthropic的Claude Code负责人Boris Cherny在开发者大会上表示，过去六个月他的编程工作方式彻底改变。此前所有手写的代码现在均由Claude生成。他只需向Claude提出指令，例如要求构建某个功能，Claude便会完成开发、测试并展示结果。他随后可进行审核，要求调整或直接批准。这一转变体现了AI编程助手已能深度参与实际开发流程。

智能体Anthropic大佬观点编码

02:06

Hacker News 热门（buzzing.cc 中文翻译）

受人工智能推动导致的前所未有的短缺影响，主板销量目前正急剧下滑

受人工智能芯片需求激增影响，主板市场正经历严重供应短缺，导致销量急剧下滑。行业数据显示，主板销量已下降超过25%，主要因芯片制造商将产能优先转向利润更高的AI芯片，限制了消费级主板核心组件的供应。华硕预计2025年将少售出500万块主板，技嘉、微星和华擎等其他主要厂商的销量也预计将显著减少。这一趋势反映出AI产业对传统PC硬件供应链造成的挤压效应。

现象/趋势端侧

02:06

Hacker News 热门（buzzing.cc 中文翻译）

Chrome 撤回了关于"设备端 AI 不会将数据发送至 Google 服务器"的声明

Chrome浏览器近日从其帮助文档中撤回了关于“设备端AI不会将数据发送至Google服务器”的声明。这一修改表明，谷歌可能调整了其设备端AI功能的隐私数据处理政策，相关AI功能在本地处理数据时，或许仍存在将某些数据发送至服务器的可能性。该变动引发了技术社区的关注，在Hacker News上获得了超过100的讨论热度。

Google产品更新端侧

02:05