AIHOT

5月8日

00:14

Nathan Lambert：Interconnects（RSS）

精选74

走进中国AI实验室内部笔记

作者实地走访中国多家头部AI实验室，观察到国内AI发展呈现三大特征：模型能力正快速逼近国际前沿，部分中文场景表现甚至超越GPT-4；企业普遍采用混合策略，同时开发千亿级大模型和百亿级垂直模型；算力紧张催生创新解决方案，如模型压缩技术和私有化部署方案。各大实验室正从技术追赶转向应用深耕，在医疗、制造等传统领域已形成规模化落地案例。

大佬观点现象/趋势

推荐理由：Nathan Lambert 走访了中国一线 AI 实验室，这份内部笔记不讲公关话，把几家大厂的真实进展和局限摊开聊，如果你关心中国 AI 的实质水位，这篇绕不开。

00:13

向阳乔木@vista8

精选70

想让AI设计公众号排版CSS，可直接跟Agent说，参考Design md设计： https：//github.com/VoltAgent/awesome-design-md/tree/main/design-md 一下能设计了70多个知名网站风格，选几个喜欢优化。

GitHub开源生态教程/实践

推荐理由：直接让Agent参考design md设计库生成公众号CSS，76种知名网站风格随便套，做公众号排版的朋友读完就能开搞。

00:10

Nathan Lambert@natolambert

精选72

走访多家中国顶尖AI实验室后，我深受触动：这里存在一种极其适合用较少资源构建LLM的文化，但这种文化发生在截然不同的生态系统中--参与企业更多，数据产业几乎空白等。完整报告：https：//www.interconnects.ai/p/notes-from-inside-chinas-ai-labs

数据/训练现象/趋势

推荐理由：Nathan Lambert 走访中国头部 AI 实验室，他最意外的不是模型差距，而是几乎没有数据产业——这个观察比任何 benchmark 都说明问题。

00:08

Replit ⠕@Replit

45

在Replit上使用Plaid构建个性化金融应用 https：//x.com/i/broadcasts/1MKgNgOqznWxL

教程/实践编码

00:08

Ethan Mollick@emollick

62

这个市场如此迅速地洗牌令人瞩目。 Anthropic 和 OpenAI 至少已进入商业起飞阶段：它们拥有模型开发、企业合约、算力协议、政府与媒体关注以及消费者认知。唯一的潜在竞争者是谷歌（或许还有 Meta）

AnthropicOpenAI大佬观点行业动态

00:06

凡人小北@frxiaobei

精选81

作者宣布，将新书《AI营销：从SEO到GEO》中配套的25个AI营销与GEO相关提示词开源至GitHub。此次更新还补充了部分短视频和文案相关的提示词，所有资源已在指定仓库公开，供用户下载使用或重新拉取。

姚金刚：和 @vista8 讨论了下，决定将我们的新书《AI营销：从SEO到GEO》里配套的25个AI营销与GEO相关的提示词，也开源到GitHub 另外补充了部分短…

GitHub开源/仓库搜索

关联讨论 1 条

推荐理由：不是又一个提示词合集，而是把《AI营销》书里的实操技巧拆成了现成指令，短视频和GEO部分尤其解渴，做内容营销的建议直接fork。

00:06

Rohan Paul@rohanpaul_ai

62

SpaceX提交在德州建设550亿美元Terafab芯片工厂的计划。 SpaceX表示总支出可能达到1190亿美元，这标志着其计划更接近国家规模的算力供应链，而非普通的公司扩张。

行业动态

00:06

Rohan Paul@rohanpaul_ai

32

反AI运动反映了人们对AI进入人类物理领域的不适感。

大佬观点

5月7日

23:40

Sundar Pichai@sundarpichai

25

看我桌上收到了什么 @StephenCurry30！

Google其他

23:36

elvis@omarsar0

64

当前AI智能体（Agent）构建门槛降低，其质量差异的核心在于能否进行恰当的评估。真正的挑战在于生产环境中可能出现的"静默漂移"--即使通过所有测试，系统质量仍可能在无报错的情况下悄然下降。解决方案并非加强部署前测试，而是建立持续评估机制。这已成为区分AI系统优劣的关键技能。

智能体大佬观点评测/基准

23:22

HuggingFace Daily Papers（社区热门论文）

64

首个词元即知晓：单次解码置信度用于幻觉检测

研究发现，仅通过单次贪婪解码中首个内容答案词元的归一化熵计算置信度指标 phi_first，就能有效检测大语言模型在闭卷事实问答中的幻觉。在三个7-8B指令微调模型和两个基准上，phi_first 的平均AUROC达0.820，优于需多次采样的语义一致性方法（0.793）和标准表层自洽性方法（0.791）。该指标与语义一致性呈中到强相关，两者结合提升有限，表明模型在首个词元分布中已包含了多样本一致性所捕获的大部分不确定性信息，可作为低成本基线指标。

arXiv安全/对齐推理论文/研究

23:22

HuggingFace Daily Papers（社区热门论文）

61

SWE-WebDevBench：将编码智能体应用平台作为虚拟软件机构进行评估

研究团队推出SWE-WebDev Bench评估框架，从交互模式、机构角色和复杂度三个维度，通过68个指标系统性评估AI驱动的“氛围编码”平台。在6个平台、3个领域、18个评估单元上的测试揭示了当前AI应用构建器的四大普遍缺陷：存在将丰富业务需求过度简化的“规范瓶颈”；普遍存在前端与后端脱节，精美UI常掩盖缺失或故障的后端；生产就绪度陡降，工程质量得分无平台超过60%，且人工后期工作量差异大；安全与基础设施问题广泛，安全得分无平台超过65%，并发处理能力低至6%。该基准已开源以推动复现并帮助平台改进。

智能体编码论文/研究评测/基准

23:21

Berryxia.AI@berryxia

65

Google Health以开放生态挑战Apple Health

Google推出全新Google Health平台，取代Fitbit应用，采用开放生态策略，支持从Apple Watch、Garmin等多设备导入健康数据。平台内置Gemini AI教练，提供智能推荐与个性化指导，直接挑战Apple Health的封闭模式，标志着健康数据与AI竞争进入新阶段。

Google产品更新端侧

23:21

Berryxia.AI@berryxia

精选76

SenseNova-U1开源8步蒸馏LoRA，扩散模型推理提速11倍

SenseNova-U1开源了一项8步蒸馏LoRA技术，将扩散模型的生成步骤从100步压缩至8步，使GPU推理时间从23秒大幅缩短至2秒，速度提升达11倍。该技术同时完整支持ComfyUI，并提供了文本生图、图像编辑和交错生成等开箱即用的工作流程。此举标志着扩散模型从研究阶段迈向实用化，引发了业界关于未来应聚焦参数规模竞赛还是追求速度与实用性的讨论。

图像生成开源/仓库部署/工程

推荐理由：这个LoRA把扩散模型推理从23秒压到2秒，还带全套ComfyUI工作流，玩图像生成的人今天就应该装上去试试，速度飞升11倍是真的能立刻用上。

23:21

Berryxia.AI@berryxia

27

每天白送4000 万token，你确定你不去把这个🦙羊毛"搞一搞"？

Qclaw AI助手每日免费提供高达4000万token，适合执行定时任务、批量处理数据和生成合同等自动化工作，用户可基于能省则省的原则榨干其价值。该工具以像素风小龙虾形象呈现，拥有16-bit像素风格工作室，能作为“不会下班的同事”持续工作，目前处于内测阶段，需通过Waitlist申请，并使用专属邀请码“berryxia”获取。引用内容补充了其趣味设计，强调它可像电子宠物一样互动，同时高效协助日常任务。

Berryxia.AI：🧵 1/8 前几天给大家分享的我用AI邮箱来搞钱的帖子(见前贴)，有很多朋友私信我问，你使用的那个像素风的小龙虾是什么？怎么那么可爱有趣，我今天给大家…

智能体教程/实践

23:13

向阳乔木@vista8

65

构建个人观点库以优化AI Agent决策

推文提出了一个利用AI Agent构建个人“观点MD”文件的构想。其核心是让AI Agent定期抓取个人在网上发布的内容，并由AI提炼出其中的核心观点，整理成一个结构化的文档。这个文档旨在记录和固化个人的观点与立场。其最终目的是让未来的AI Agent在进行决策和判断时，能够参考这份文件，从而使其行为更贴近用户本人的真实想法和价值观，实现更个性化的AI交互。

智能体教程/实践

23:11

Google DeepMind@GoogleDeepMind

48

算法已成为生活几乎所有方面的一部分，从自然世界的物理规律到规划航运路线。过去一年，我们由Gemini驱动的编码代理AlphaEvolve持续推动多个领域的进步--从量子计算、生物技术到物流及@Google的AI基础设施。↓ https：//goo.gle/4uzfe0C

智能体Google编码行业动态

23:09

The Decoder：AI News（RSS）

38

AI翻译公司DeepL裁员约250人，旨在重建为"AI原生"组织

德国AI翻译服务商DeepL宣布裁员约250名员工，以进行组织重组。该公司正致力于将自己重塑为一个“AI原生”的组织架构。DeepL是谷歌翻译等机器翻译工具的主要竞争者，此次裁员是其战略调整的一部分。

行业动态

23:06

meng shao@shao__meng

精选70

Apify mcpc 与 x402：给 AI Agent 装上"自动付款的钱包"

Apify发布的通用MCP客户端CLI工具mcpc，集成了x402支付协议，旨在解决AI Agent调用付费API时的手动计费瓶颈。传统SaaS计费流程依赖人工注册、绑卡和审批，而x402协议将支付压缩为一次HTTP往返加签名，使程序能自主交易。mcpc为Agent提供加密钱包，当调用付费服务遭遇HTTP 402状态码时，可自动签名完成支付，无需人工干预。该工具支持Claude Code等MCP兼容的Agent，用户可使用USDC为钱包充值并连接x402兼容服务。

智能体MCP/工具产品更新

推荐理由：过去 Agent 付费靠人类插手，Apify mcpc 把 x402 支付压缩成一行签名，相当于给每个 Agent 发了个自动钱包，做 agent 基建的可以立刻用起来了。

23:06

Ant Ling@AntLingAGI

精选76

inclusionAI宣布Ling-2.6-1T现已在OpenRouter上线。🚀 这款万亿参数旗舰指令模型专为现实世界智能体打造。它采用"快速思考"方法，在保持AIME26和SWE-bench Verified基准测试顶尖性能的同时，将成本降低约75%。适用于： - 高级编程 - 复杂推理 - 大规模智能体工作流

智能体推理模型发布编码

推荐理由：万亿参数专攻Agent，成本还直降75%，对狂烧token费的AI Agent团队来说是个真信号。蚂蚁终于不玩虚的，OpenRouter上就能试。

23:06

Hacker News 热门（buzzing.cc 中文翻译）

57

ProgramBench：语言模型能否从头重建程序？

研究提出ProgramBench基准，用于评估语言模型能否仅根据问题描述从头生成完整且可执行的程序。该基准包含2,000个编程问题，覆盖多种难度与类型，要求模型输出可直接运行的代码。测试显示，当前先进模型在此任务上表现仍不理想，准确率较低，突显了语言模型在复杂、无示例编程任务中的局限性。这项工作为衡量模型的实际编程能力提供了新工具。

arXiv编码论文/研究

23:04

OpenRouter@OpenRouter

精选72

1/ 音频现已成为OpenRouter的一等公民。今日上线两个新端点： 📢 /api/v1/audio/speech - 文本转语音（TTS） 🎤 /api/v1/audio/transcriptions - 语音转文本（SST）沿用您已在文本、图像和视频中使用的相同路由、计费和密钥。

产品更新语音部署/工程

推荐理由：OpenRouter 突然把 TTS 和 STT 拉进了统一路由，用同一把 Key 和账单，做多模态 App 的人可以少调一个 API。更新不大，但省事。

23:04

AK@_akhaliq

60

RLDX-1 技术报告论文：https：//huggingface.co/papers/2605.03269

Hugging Face论文/研究

23:04

AK@_akhaliq

54

Stream-R1 面向流式视频生成的可靠性-困惑度感知奖励蒸馏论文： https：//huggingface.co/papers/2605.03849

Hugging Face多模态视频论文/研究

23:04

AK@_akhaliq

63

PhysForge 生成物理基础的3D资产用于交互式虚拟世界论文：https：//huggingface.co/papers/2605.05163

具身智能多模态论文/研究

23:01

Chubby♨️@kimmonismus

53

谷歌推出AI健康教练，整合多维度健康数据

谷歌在新健康应用中发布了由Gemini驱动的AI健康教练，能整合用户的健身、睡眠、营养、周期追踪、天气乃至美国医疗记录等全方位健康数据。此举被视为迈向个人AI医生和个性化AI医疗的第一步。谷歌将Fitbit应用升级为Google Health，使其成为集健身、睡眠、体征监测、设备连接及未来Google Fit数据迁移于一体的中心平台。Fitbit继续作为硬件核心，而应用则成为Gemini驱动教练、Google Health Premium及新Fitbit Air生态的基地。这一发布领先于苹果即将推出的由Gemini赋能的新Siri及类似健康概念。

Google产品更新

22:59

Google DeepMind：Blog（RSS）

精选66

AlphaEvolve：我们由Gemini驱动的编程智能体如何跨领域扩展影响力

AlphaEvolve推出了基于Gemini大模型的编程智能体，其算法正驱动多个领域产生实际影响。该智能体在商业流程、基础设施优化与科学研究三个关键领域实现规模化应用，通过自动化代码生成与问题解决提升效率。具体实践表明，它能显著加速开发周期并处理复杂任务，标志着AI编程助手从辅助工具向核心生产力引擎的演进。

智能体DeepMindGoogle产品更新

推荐理由：DeepMind这次不只是秀参数，AlphaEvolve用Gemini驱动编码代理，已经开始在工业设计和科学发现里产生真实影响了，做自动化的可以盯着看。

22:41

TestingCatalog News 🗞@testingcatalog

45

GOOGLE 🚨： Flow平台正在准备全新的智能体模式，用于处理完整的视频制作流程！用户将能够： - 规划场景 - 讨论进行中的项目变更 - 触发生成工作流 - 管理项目级和应用级的创意工具 - 直接通过聊天界面更新项目状态万物皆可智能体 👀

智能体Google产品更新视频

22:41

TestingCatalog News 🗞@testingcatalog

55

Meta即将推出常驻AI智能体"Hatch"，基于社交数据训练

Meta即将推出名为“Hatch”的常驻AI智能体，目前已开放候补名单。该智能体将基于Instagram和Facebook的社交数据进行训练与信息落地。据披露，内部测试计划于6月底启动，Meta为此构建了模拟Reddit、Etsy和DoorDash的环境，以训练其工具使用行为。技术架构方面，最终将由Meta自家的Muse Spark模型系列作为核心支撑，而在过渡阶段，将暂时采用Anthropic的Claude Opus 4.6和Sonnet 4.6模型作为中间层。

智能体AnthropicMCP/工具Meta

22:38

The Decoder：AI News（RSS）

50

Anthropic 如何以 80 倍的增长突破自身基础设施，直入马斯克的数据中心

Anthropic 将接入埃隆·马斯克的 Colossus 1 超级计算机。这一出人意料的合作源于 Anthropic 自身面临的计算资源紧张、即将到来的 IPO 压力，以及马斯克立场的显著转变。公司近期的 80 倍规模增长已远超其现有基础设施的承载能力。

AnthropicxAI行业动态部署/工程

22:35

Rohan Paul@rohanpaul_ai

43

基于情境推理而非固定指令。无需手把手指导即可理解任务的智能体。 @ThineAI 的AI代理完全能成为自由职业者的主动型联合创始人。自由职业者高达40%的时间耗费在合同、开票等行政事务上。我对此深有体会--这简直是时间与精力的巨大浪费，而AI能彻底改变这种生活。【引用 @pratyush_r8】：freelancing can be less daunting with @ThineAI

智能体大佬观点

22:31

Chubby♨️@kimmonismus

48

Superintelligence升级为AI与未来科技对话媒体平台

Superintelligence宣布提升至新水平，从新闻通讯和播客转型为媒体平台，专注于与塑造AI、网络安全、机器人、基础设施和智能未来的人进行对话。平台近期升级了视频格式和编辑支持，优化YouTube优先的体验。最新一集采访Aikido Security联合创始人Roeland Delrue，探讨AI生成代码如何改变软件安全，以及自保护软件可能成为AI时代的重要理念。更多采访已在筹备中，旨在追踪AI的实际发展方向。

产品更新安全/对齐

22:30

Apple：Newsroom（RSS）

54

AI 与无障碍技术在今年 Swift Student Challenge 中的相遇

本届 Swift Student Challenge 评选出四位获奖者，他们开发的创新应用深度融合人工智能技术，并聚焦于无障碍功能设计。这些应用利用 AI 为视障、听障等群体提供实时环境识别、语音交互增强等解决方案，展现了技术普惠的实践路径。获奖作品均基于 Swift 平台开发，体现出年轻开发者将前沿 AI 能力与包容性设计理念相结合的趋势。

行业动态

22:16

Emad@EMostaque

13

代币是重建信息高速公路的砖石。信息浩如烟海。这将需要海量的砖石。

其他

22:10

Anthropic@AnthropicAI

精选67

我们正在分享人类研究所（The Anthropic Institute，简称TAI）的研究议程。 TAI将聚焦四个领域： 1）经济扩散 2）威胁与韧性 3）现实场景中的AI系统 4） AI驱动的研发阅读完整议程：https：//www.anthropic.com/research/anthropic-institute-agenda

Anthropic安全/对齐行业动态

关联讨论 1 条

推荐理由：Anthropic 旗下 An institute 定了四个研究方向，经济扩散和 AI 驱动的研发这两个方向挺新鲜，说明他们开始认真琢磨 AI 对社会的二阶冲击，搞安全政策的可以仔细读一下。

22:05

Ant Ling@AntLingAGI

39

解锁长周期任务（如深度研究）的稳定执行可归结为三点： - 高性价比的LLM - 高级推理能力 - 精良的工具框架选择一个稳健且技能完备的工具框架可能颇具挑战。

推理现象/趋势部署/工程

22:04

Orange AI@oran_ge

精选75

ColaMD 1.5版实现Markdown内容与HTML模板分离

作者为解决制作演示文稿时修改不便的问题，受“Markdown as Database”理念启发，在ColaMD 1.5版本中实现了一种内容与视图分离的方案。该方案将.md文件作为内容层，HTML作为可更换的视图模板层，用户只需修改Markdown内容，即可生成不同形态的最终呈现，如幻灯片、博客等。此功能已内置，并支持通过开源方式由社区或AI扩展更多模板。

GitHub开源生态教程/实践

推荐理由：藏师傅的 Markdown as Database 搭上 HTML 模板，改 PPT 像改文档一样简单，ColaMD 直接给了现成模板，如果你常做分享，这个思路能省一半排版时间。

21:43

向阳乔木@vista8

60

评测显示Opus 4.6用户体验优于后续版本4.7

根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名，Anthropic的Opus 4.6模型以1.3的指数位居榜首，显示其用户满意度最高，甚至超越了其后续版本Opus 4.7（指数1.5）。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元，结论表明新版模型在关键用户体验指标上可能出现倒退。

Anthropic推理评测/基准

21:21

Berryxia.AI@berryxia

62

AI的真正瓶颈从来不是芯片，而是电力

Elon Musk揭示了xAI在孟菲斯建设超算集群时遭遇的严峻电力挑战。为供应约11万块GB300 GPU，团队不得不协调数十台燃气轮机，因许可问题将发电厂迁至密西西比州，并铺设高压输电线路。实际电力需求远超GPU功耗，在孟菲斯极端夏季，冷却系统峰值功耗增加约40%，冗余维护还需20-25%的额外容量，最终需要约330兆瓦的实际发电量。这凸显了前沿AI数据中心的真正瓶颈并非芯片，而是稳定、大规模的电力供应与管理能力。

行业动态部署/工程

21:16

IT之家（RSS）

63

法官裁定：英伟达相关脚本唯一用途就是协助实施版权侵权行为

美国联邦法官裁定，针对英伟达的人工智能间接侵权诉讼将继续推进。法官驳回了英伟达大部分驳回诉讼的请求，并认定其分发给客户、用于自动下载并预处理The Pile数据集的专属脚本“除协助实施侵权行为外，没有任何其他用途”。该裁决首次适用最高法院考克斯诉索尼案的新标准，认定英伟达脚本同时满足“诱导侵权”和“专为侵权设计”两项间接侵权判定标准。英伟达要求删除诉状中所有BitTorrent相关表述的申请也被否决。

政策/监管数据/训练