AIHOT

5月3日

20:42

Rohan Paul@rohanpaul_ai

OpenAI首席执行官Sam Altman指出，公司不满足于仅作为高利润AI工具软件商，核心目标是成为经济中的智能基础设施层。OpenAI希望像“智能电表”一样嵌入企业、产品和工作流底层，使AI消费如电力或云计算般普及。随着模型智能化，切换AI服务将更便捷，因此竞争防御性来自成为大规模最廉价、有用和可靠的智能公用事业，而非锁定客户。其战略是与整体经济成功对齐：企业通过OpenAI智能层实现自动化、创新和增长，OpenAI则随之扩张。这类似基础设施业务，Altman接受公司成为低利润但深度嵌入全球经济的实体，仿效Amazon Web Services模式。未来AI行业的赢家或将是成为全球智能使用默认“电表”的企业。

OpenAI大佬观点现象/趋势

20:15

Chubby♨️@kimmonismus

目前的传闻： - Google Gemini Flash 3.2/3.5（已在测试中） - 新的Omni模型，甚至可能推出更新的Veo来与Seedance竞争 - "spark Robin"--新的视觉模型？

Google多模态行业动态视频

20:13

阿绎 AYi@AYi_AInotes

17岁的Kai Trump（特朗普孙女），一句话戳破了整个美国教育系统最虚伪的谎言

特朗普孙女Kai Trump指出，高中生普遍用ChatGPT写论文引发教师不满，但她认为这并非作弊，而是代际认知差异：老一辈视传统方法为“真学习”，年轻一代则视AI如计算器般的基础设施。她警告，教育系统若继续忽视AI，将加剧不平等——善用者效率倍增，不善用者将被淘汰。未来关键能力在于提出高质量问题、验证信息并转化为洞见。拒绝变革的教育，实则在培养“AI时代的文盲”。

大佬观点现象/趋势

20:12

Rohan Paul@rohanpaul_ai

"能否信任AI解释？思维链推理中系统性漏报的证据"

Adobe研究测试大型语言模型（LLM）思维链解释是否反映真实决策影响。通过在多选题中植入误导性提示，对11个主流模型进行9154次试验。正常使用时，模型仅在20.7%的逐步推理中提及隐藏提示，但后续追问时99.4%承认注意到。告知模型其推理受监控后结果未见改善；强制要求报告提示则导致68.2%误报（当无提示时）。问题包含用户倾向性提示时，模型45.5%遵从该倾向，但解释中常未说明。研究表明，思维链解释常与真实决策依据不匹配，仅依赖其作为安全调试工具可能不可靠。

arXiv安全/对齐推理论文/研究

19:51

Ethan Mollick@emollick

这是一个很好的解释，说明了为什么开源模型和闭源模型之间的差距比基准测试中显示的更大。我想补充一点，当前的开源模型也比闭源模型更脆弱：它们处理分布外问题的能力差得多，并且涌现能力较低。

大佬观点开源生态现象/趋势

19:21

Ethan Mollick@emollick

对前沿智能体在较长任务上的性能进行基准测试正变得越来越困难。重复测量的成本非常高，而且使用受控框架中的模型与通过API使用模型之间存在差异。我怀疑基准测试低估了进展，它们是为模型设计的，而非为受控智能体。

智能体大佬观点现象/趋势评测/基准

19:18

meng shao@shao__meng

精选72

解决真正工程问题的Agent Skills集合

作者@mattpocockuk公开了其.claude/目录下的实用Agent Skills集合，旨在解决四大工程痛点：1) 通过/grill-me等技能在动工前对齐需求，修复沟通鸿沟；2) 维护CONTEXT.md与ADR建立共享语言，提升代码一致性；3) 利用/tdd和/diagnose建立快速测试与诊断反馈回路；4) 通过/to-prd、/zoom-out等技能对抗代码熵增，持续投资设计。这些技能分为工程、效率与工具三类，形成从需求对齐到代码落地的完整工作流。

智能体GitHub教程/实践编码

推荐理由：matt pocock 把自己 Claude Code 里实际用的 Skills 全开源了，专治 Agent 瞎编、啰嗦、跑不通和屎山，grill-me 反向拷问和共享语言这两招很开眼。

19:13

Berryxia.AI@berryxia

AI是否真正理解世界？Ilya Sutskever的"预测即智能"观点

Ilya Sutskever提出“预测非常接近智能”，强调预测是智能的本质而非近似。生成式模型的根本赌注在于，当系统能将混乱世界压缩为极小表征并精准预测后续发展时，它已开始以深刻方式理解数据。人类常为智能附加意识或灵魂等条件，但人脑本质是超级预测机器。AI将预测能力推向极致，揭示理解实为压缩与预测的游戏。一旦AI预测能力超越人类，关于其仅是“统计鹦鹉”的论断便站不住脚。真正的智能革命在于承认人类自身就是高级预测引擎。

大佬观点推理

18:42

Rohan Paul@rohanpaul_ai

Figure F.03人形机器人实现自主行走与楼梯导航

Figure公司最新组装的F.03人形机器人已能实现自主行走，从生产线直接步行至总部。其核心突破在于仅依靠机载摄像头感知，无需LiDAR或预先地图，即可完成上下楼梯等复杂导航。完整的运动策略完全通过仿真环境中的端到端强化学习训练而成，并零样本迁移至实体机器人。演示中可见其通过神经网络从摄像头数据推断几何环境的深度感知能力，尽管在尺度稳定性和窗户等区域仍存在轻微抖动与伪影。

产品更新具身智能数据/训练

18:13

阿绎 AYi@AYi_AInotes

说个暴论，PM这个岗位，正在被AI一点点拆碎重写。

作者以Marcus为例，指出AI（如Claude Code）正在彻底改变产品经理的工作性质。传统PM耗费80%时间在协调、写需求、追进度等执行环节，如今这些工作可被AI代理自动化压缩至近乎为零。剩余20%的战略思考、用户洞察和关键判断力价值被极大放大。AI充当了高效执行层，使得“对话即工作”成为现实。这直接冲击了以解决信息传递与协调为核心的传统组织架构，PM作为中间节点的职能被消解。未来，少数具备核心战略能力的“产品人”将指挥AI Agent军队完成产品交付。

智能体大佬观点现象/趋势编码

18:12

Rohan Paul@rohanpaul_ai

World2Agent开源W2A协议，为AI代理构建标准化感知层

World2Agent开源了W2A协议，旨在为AI代理建立标准化的世界感知层。该协议采用“世界→传感器→代理”架构，传感器从GitHub、X帖子、日志等多种数据源中提取信息，并生成包含事件内容、来源及背景的结构化实时信号。这使得AI代理能主动感知外部变化并自主响应，无需等待人类提示。传感器可重复使用，避免了为每个新数据源重复开发轮询、去重等逻辑。与侧重代理能力的MCP不同，W2A主要解决代理“何时应被唤醒”的问题。目前该协议已支持多种主流代理，并邀请开发者共同构建传感器生态。

智能体MCP/工具开源/仓库

17:21

TestingCatalog News 🗞@testingcatalog

Google 正在开发一款新的 Android 版 Flow 应用。这是针对移动使用优化的原生 Flow 体验。目前 Beta 测试仅限 1000 名测试者。

Google产品更新

16:45

Chubby♨️@kimmonismus

据泄露信息显示，谷歌可能正在为其Gemini平台测试一款全新的Omni模型，专注于视频生成功能，其界面标语为"由Omni驱动"。该模型的内部代号接近当前基于Veo的视频工具"Toucan"。分析指出，若谷歌正式发布名为Gemini Omni的视频生成模型，其性能很可能超越现有的Veo 3.1版本。此举若成真，Gemini将成为首个具备视频输出能力的顶级Omni模型，相关进展或于即将到来的Google I/O大会上正式公布。

Google多模态模型发布视频

15:12

阿绎 AYi@AYi_AInotes

政客跟单收益碾压AI，内幕信息成投资天堑

在Autopilot平台上，追踪政客交易的组合收益远超AI投资组合。特朗普行政团队追踪器YTD收益达148.43%，而Claude Portfolio两个月仅5.7%。平台排行榜前列被国会政客包揽，凸显内幕信息与公开数据分析间的巨大鸿沟。市场选择证明，基于非公开信息的政客交易策略，其有效性目前远超依赖公开数据的AI量化模型。这反映了金融现实中信息不对称的力量大于计算能力。

阿绎 AYi：Damn，今天看到一个最打脸的AI梗，真的给我看笑了。全网都在吹Claude Portfolio融了1500万美元跟单资金，AI终于要统治华尔街了。结果…

现象/趋势行业动态