AIHOT

5月2日

09:11

IT之家（RSS）

精选70

美国五角大楼与 SpaceX、OpenAI、谷歌、英伟达、微软等 8 家公司合作，在机密网络部署 AI、用于作战

美国五角大楼宣布与SpaceX、OpenAI、谷歌、英伟达、Reflection、微软、亚马逊AWS及甲骨文八家领先AI公司达成协议，将在其机密网络（IL6和IL7环境）中部署AI能力，用于“合法的作战使用”。此举旨在加速美军向AI优先作战力量转型，通过集成安全的边界AI能力来简化数据合成、提升态势感知并增强复杂环境下的决策优势。此前，五角大楼因与Anthropic就AI模型使用限制产生争议并诉诸法律，加速了供应商多元化进程。

GoogleOpenAI安全/对齐行业动态

关联讨论 1 条

推荐理由：五角大楼把 OpenAI、谷歌、英伟达等 8 家公司拉进机密网络做作战 AI，Anthropic 因为限制条款被排除，AI 军事化正式进入快车道，伦理分歧已经变成真金白银的站队。

09:11

Berryxia.AI@berryxia

35

Gemini 中可以直接选择NotebookLM 也确实方便很多，学习笔记做个互动笔记网页什么的就挺好。

Google教程/实践

09:11

Berryxia.AI@berryxia

46

下周A社的开发者大会即将开始，开发者可以看看。原帖注册地址👇

Anthropic行业动态

08:48

向阳乔木@vista8

41

Pi创始人谈未来软件：动态自我改造的AI代理

Pi创始人Mario Zner提出，未来的软件将不再是静态的、依赖官方更新的产品。他认为，以Pi为代表的AI编程代理展示了新的方向：软件应能根据每个用户的特定需求，进行动态的自我改造和扩展。Pi本身是一个极简且可自我修改的AI编程代理，同时也是个人AI助手OpenClaw的核心引擎，其设计理念正体现了这种向个性化、自适应系统演进的关键趋势。

智能体大佬观点

08:18

dax@thdxr

48

我喜欢AI的一点是，即使是小细节我也能研究得更透彻为OpenCode V2 api实现分页功能，并从relay中汲取了所有好点子

大佬观点编码

08:18

Orange AI@oran_ge

48

算法工程师周远因AI系统“百变怪”能自主完成设计、调参等工作而被裁员。失业后，他受启发开发了一款元游戏系统C.O.L.A.，允许玩家通过自然语言描述生成个性化游戏。产品上线后迅速获得百万用户，形成了活跃的创作者经济生态。周远最终领悟到，AI作为封闭系统需要人类注入“上下文”（信息/负熵）来获得生命力，而真正的创造源于热爱与主动选择。

大佬观点现象/趋势

08:18

meng shao@shao__meng

57

OpenAI Codex 也有陪伴宠物（Pets）了，内置了 8 种宠物，支持自定义

OpenAI Codex 推出Pets功能，提供8种内置宠物并支持自定义。用户可通过设置、输入/pet或命令面板启用。其核心价值在于“环境感知”：宠物悬浮层能持续显示当前活跃线程、Codex运行状态（如运行中或等待输入）及进度提示，充当异步任务的环境指示器，使后台长耗时任务保持可见。自定义宠物通过hatch-pet skill实现，该skill能基于用户项目语境生成专属宠物，表明Pets是接入Codex skill体系的可扩展功能，而非简单装饰。官方推文确认该功能已集成，用户可使用/pet指令唤醒宠物。

智能体OpenAI产品更新

08:18

宝玉@dotey

57

推文认为，在AI辅助编程时代，决定谁写代码更快更好的关键能力，已从传统的算法功底转向两项新技能：一是擅长清晰定义问题，或将需求拆解为AI可执行的任务；二是能准确判断AI生成结果的质量，并对质量不佳的部分进行有效指导。引用推文进一步指出，一个认真撰写文档注释的普通开发者，可能比仅精通数据结构和算法的高手更具优势，因为核心产出已从代码本身转向用于指导AI的注释。

鸭哥：一个熟练掌握数据结构和算法的高手，和一个水平一般但认真写Docstring的人，谁用AI写代码更快更好？答案可能让你不舒服：后者赢面更大。因为AI辅助编程的核心…

大佬观点编码

08:11

IT之家（RSS）

56

奥斯卡明确规定：AI 演员和剧本没资格获奖

奥斯卡奖发布新规，明确禁止人工智能生成的表演和剧本获奖。美国电影艺术与科学学院规定，从2027年3月举行的下一届颁奖典礼开始生效。规则指出，电影制作中虽可使用AI工具，但“合成”表演者不能获得任何奖项，获奖剧本必须是“人类创作的”。学院可要求提交作品提供更多信息，以验证人类创作身份。这一变化旨在维护奖项对人类创意的认可，回应行业对AI替代演员的担忧。

行业动态视频

08:00

HuggingFace Daily Papers（社区热门论文）

61

将漂移转为约束：非平稳环境中的鲁棒推理对齐

本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战，提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架，将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中，再利用约束感知优化，通过多负Plackett-Luce目标抑制漂移轨迹，合成一致的共识流形。在胸部X射线解释任务上的实验表明，我们的70亿参数模型展现出卓越的鲁棒性，平均准确率甚至超过专有源模型。同时，我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX，以推动相关研究。

GitHub多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

TT4D：基于单目视频的乒乓球4D重建流程与数据集

TT4D是一个大规模高保真乒乓球数据集，包含超过140小时从单目转播视频重建的单打与双打比赛数据，提供高质量相机标定、精确3D球位、球旋转、时间分割以及随时间变化的3D人体网格等多模态标注。该数据集通过新颖的重建流程实现规模与精度的结合：传统方法依赖2D球轨进行时间分割，易受遮挡和多视角影响；TT4D则首先通过学习的提升网络将未分割的2D球轨全程提升至3D，再基于3D轨迹可靠分割时间，并能推断球旋转、处理漏检，在高遮挡情况下成功重建轨迹。该流程是目前唯一能从通用视角单目转播视频重建乒乓球比赛的方法。数据集已应用于球拍击球姿态速度估计、竞技对抗回合生成模型训练等下游任务。

数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

ESARBench：面向无人机具身搜索与救援的智能体基准

研究团队提出了具身搜索与救援新任务，并发布首个综合性基准ESARBench，用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境，包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线，结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

证据链：面向迭代检索增强生成的像素级视觉归因框架

针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题，本研究提出了“证据链”框架。该框架与检索器无关，直接利用视觉语言模型对检索到的文档截图进行推理，无需针对特定格式进行解析，并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明，经微调的Qwen3-VL-8B-Instruct模型表现稳健，在需要视觉布局理解的场景中显著优于基于文本的基线方法，为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。

arXiv检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

SplAttN：通过高斯软光栅化和注意力桥接2D与3D的点云补全

多模态点云补全中，硬投影易导致跨模态熵崩溃，阻碍视觉先验传播。为此，SplAttN提出一种新方法，以可微分高斯光栅化替代硬投影，将投影转化为连续密度估计，生成密集连续的图像平面表示。这避免了稀疏支持问题，改善了梯度流动与跨模态连接学习能力。实验显示，SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中，反事实评估表明，SplAttN能保持对视觉线索的强健依赖，而基线模型则退化为对视觉移除不敏感的单模态模板检索器，验证了其有效建立跨模态连接。代码已开源。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

自主AI系统应设计为边际token分配经济体

本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体，而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例，文章揭示了当前被孤立设计的四个经济层级（路由层、代理层、服务层和训练层）实际上都在遵循相同的核心经济原则：边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源，并预测了一系列重复出现的故障模式，如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

57

幻觉损害信任；元认知是前进方向

尽管生成式AI的事实可靠性已提升，但幻觉错误仍是核心问题，即使在简单问答中前沿模型仍会产生幻觉。当前事实性改进主要源于扩大模型的知识边界，而非增强对边界的认知能力。模型可能难以完美区分已知与未知，导致消除幻觉与保持实用性之间存在权衡。若将幻觉理解为“自信的错误”，则可通过表达不确定性开辟新路径——忠实不确定性，即语言表达与内在不确定性保持一致。这是元认知的一个方面，对于直接交互需诚实传达不确定性，对于智能体系统则成为控制层，决定何时搜索与信任何种信息。元认知是实现大语言模型既可信又有能力的关键。

arXiv安全/对齐论文/研究

07:49

xAI@xai

精选67

语音克隆功能现已通过 xAI API 上线！不到2分钟即可创建自定义语音，或从我们涵盖28种语言的80多种语音库中选择，为您的语音助手、有声读物、视频游戏角色等注入个性化色彩。 http：//x.ai/news/grok-custom-voices

xAI产品更新语音

关联讨论 1 条

推荐理由：xAI 正式下场语音克隆，2 分钟克隆加 80 多种声音库，API 直接可调，做语音 agent 和有声书的团队得多关注一下，这对 ElevenLabs 们是个不大不小的冲击。

07:48

Sam Altman@sama

精选71

现在你可以用你的ChatGPT账户登录OpenClaw，并在那里使用你的订阅服务！祝你捕龙虾愉快。

OpenAI产品更新

推荐理由：Sam Altman用一条推文轻描淡写地扔出了OpenAI的新产品OpenClaw，ChatGPT用户可以直接登录用订阅，没发布会没博客，但既然是他亲自发的，大概率是个值得试试的新玩具。

07:48

凡人小北@frxiaobei

精选77

吴恩达（Andrew Ng）推出新课程《人人皆可的 AI 提示技巧》，旨在帮助不同水平的用户成为 AI 高级使用者。课程教授适用于 ChatGPT、Gemini、Claude 等工具的通用提示技巧，核心内容包括：利用深度研究模式生成复杂问题的详尽报告；为 AI 提供远超常人认知的丰富文档与图像上下文；在重要决策时让 AI 进行长时间深度思考；以及使用 AI 生成图像、分析数据、构建简单游戏和网站。课程还将剖析大模型的工作原理，帮助学员判断何时可信赖 AI 的答案。

多模态教程/实践

推荐理由：吴恩达亲自下场教提示工程，从深度研究到让AI替你决策，覆盖了你没想到的那些用法，免费课程值得花两小时走一遍。

07:40

Elon Musk@elonmusk

61

试试 Grok Imagine 智能体模式测试版！在 @imagine 智能体模式中，你可以在同一页面内进行头脑风暴、写作、生成和编辑图像，然后将它们转化为视频。请在桌面端访问 http：//grok.com/imagine 尝试。

智能体xAI产品更新多模态

关联讨论 1 条

07:18

dax@thdxr

49

推文作者感叹，关于AI的正确信息传播不够明显，而硅谷（SF）的氛围对为大众构建产品已不再有益。他引用Nvidia CEO黄仁勋的言论，批评某些CEO对AI持有"上帝情结"，夸大其会摧毁就业，这种言论并无帮助。黄仁勋强调应基于事实讨论，指出AI将创造数十万工作岗位并为美国经济带来数万亿美元价值。

大佬观点

07:18

Luma@LumaLabsAI

19

你的买家很专业。你的视觉内容也应如此。设定简报。明确受众。Luma Agents 据此构建所有 B2B 营销活动视觉内容。开始赢得交易 → http：//lumalabs.ai/app

其他图像生成

07:11

IT之家（RSS）

31

637 米刷新纪录！我国抽水蓄能电站最深竖井全线贯通，200 多层楼高度嵌入山体

5月2日，浙江松阳抽水蓄能电站两条深达637米的竖井全线贯通，刷新国内抽水蓄能领域最深竖井纪录。该电站设计安装4台35万千瓦机组。施工采用我国自主研发的首套700米级智能竖井装备，通过5G和传感器实现“井下无人”智能建造，施工效率较传统方法提升近十倍。电站计划于2027年9月首台机组投产，全面建成后将承担华东电网调峰、储能等任务，保障电网安全稳定运行。

其他

07:11

IT之家（RSS）

56

谷歌将为 Gemini 投放广告，目前处于准备阶段

谷歌在财报电话会议中透露，计划为人工智能助手Gemini引入广告。首席商务官Philipp Schindler强调，广告是规模化产品、覆盖数十亿用户的重要手段，公司决心已定。目前谷歌处于准备阶段，将在合适时机公布计划，测试顺利后Gemini移动端可能出现广告。类似OpenAI为ChatGPT投放广告的做法，早有传闻称谷歌可能在2026年实施该计划。

Google行业动态

06:47

François Chollet@fchollet

37

若你希望帮助世界理解AGI并加速其到来，可以考虑加入ARC Prize基金会。目前开放两个职位：Game Platform Engineering Lead，以及Model Testing & Analysis Lead https：//arcprize.org/jobs

行业动态评测/基准

06:44

Chubby♨️@kimmonismus

47

前沿科技实验室正将焦点转向人形机器人领域，标志着AI应用从白领工作向蓝领领域的逻辑延伸。科技巨头已展开布局：Google正利用Gemini直接研发机器人；OpenAI此前与机器人公司的合作虽已终止，但Meta正积极进军该领域。Meta近期收购了专注于机器人AI模型开发的初创公司Assured Robot Intelligence，以推进其人形技术重大计划。

Meta具身智能行业动态

06:18

Hao AI Lab@haoailab

44

很高兴分享我们最近被ICML 2026接收的工作！这些项目涵盖高效因果并行解码器、扩散大语言模型、视频稀疏注意力、视频量化感知训练、在线推测解码以及智能文档推理。衷心感谢所有合作者和共同作者在这些工作中的付出。期待今年夏天在首尔与大家相见！🇰🇷

智能体视频论文/研究部署/工程

06:18

SemiAnalysis@SemiAnalysis_

15

SemiAnalysis Weekly 第10期已上线，老一辈人正在开玩笑

现象/趋势行业动态

06:13

Marc Andreessen 🇺🇸@pmarca

49

其他大佬观点

05:49

Ethan Mollick@emollick

45

哥布林这件事很有趣，因为它是一个真实的怪癖，象征着AI有趣之处，并且它有机地源自一次AI用户发现。同样，就其本身而言，吉卜力化也是如此当实验室试图制造病毒式AI时刻时，通常效果较差

大佬观点现象/趋势

05:48

TestingCatalog News 🗞@testingcatalog

55

Meta收购了专注于为机器人开发AI模型的初创公司Assured Robot Intelligence。此举是Meta一项重大计划的一部分，该计划旨在构建人形机器人技术。此次收购引发了外界对Meta即将推出"Metabots"人形机器人的猜测，标志着Meta正积极将其在人工智能领域的优势扩展至实体机器人领域。

Meta具身智能行业动态

05:48

Nathan Lambert@natolambert

68

无论是否有意，这都造成了附带损害，使人们反对开源模型。其发展态势已相当明显。

OpenAI大佬观点安全/对齐现象/趋势

05:47

François Chollet@fchollet

56

最新一批模型在ARC-AGI-3上的得分目前仍低于1%。到今年年底，得分会达到多少呢？

AnthropicOpenAI推理评测/基准

05:18

Tibo@thsottiaux

22

请不要把 Codex 念成 COD-ex。我们也不是一条鱼。

OpenAI其他

05:18

Replit ⠕@Replit

53

Replit 联合创始人 Haya Odeh 和 Amjad Masad 在 Southpkcommons 的对话中，阐述了公司"寻求痛苦"的反直觉文化原则，即主动寻找问题而非庆祝成功。他们探讨了 AI 原生创始人的崛起、新 AI 模型的能力，以及多数创业者过早放弃的原因。对话还涉及 Replit 如何通过重视"饥饿感"而非资历来寻找精英人才，并讨论了在 AI 快速发展的时代进行微观预测的必要性。

智能体大佬观点现象/趋势

05:18

SemiAnalysis@SemiAnalysis_

53

Jordan和Dan以冷开场聊起孩子们对着风扇唱歌听起来很酷的话题。Shawty是提及中最有趣的台词。但随后他们深入探讨了GPU集群的真实经济学，以及你那些"便宜"的GPU实际上可能让你损失数百万。

现象/趋势部署/工程

05:16

PixVerse@PixVerse_

精选63

哇，这匹玻璃马简直达到了不同层次的超现实感 🐴🤯 顺便特别感谢 @MrDasOnX 在 PixVerse 上用 HappyHorse 完美创作了这件马主题作品！☺️

图像生成教程/实践视频

推荐理由：PixVerse 这段玻璃马把 Seedance 2.0 的超现实感推到了新高度，而且提示词全公开，做AI视频的可以直接抄走复用。

04:48

Hacker News 热门（buzzing.cc 中文翻译）

44

Spotify新增"已验证"标识，以区分真人艺人与AI

Spotify推出“已验证”标识，专门用于标记真人艺术家，以区别于AI生成的音乐内容。这一新功能通过艺术家个人资料上的徽章显示，旨在提升平台透明度，帮助听众识别音乐创作者的真实身份。随着人工智能在音乐产业中广泛应用，该举措响应了维护艺术真实性的需求，防止AI冒充人类艺术家，确保用户信任音乐来源。变化涉及平台上的艺术家验证系统，预计将影响全球数百万音乐人和数十亿用户。

产品更新

04:48

Luma@LumaLabsAI

24

每个营销活动都有一个核心真相。确保视觉设计能证明它。定义洞察。设定方向。Luma Agents 由此构建每个营销活动的视觉内容。立即构建 → http：//lumalabs.ai/app

产品更新视频

04:44

Chubby♨️@kimmonismus

18

我从未见过@sama像最近几天这样频繁发推。

OpenAI现象/趋势