AIHOT

5月5日

01:14

Berryxia.AI@berryxia

Anthropic发布《Agent Stack》蓝图：构建全AI员工公司的"操作系统"

Anthropic联合Google Cloud正式发布《Agent Stack》指南，提供了一套完整的“AI企业操作系统”蓝图。该系统允许人类仅设定目标，由AI员工自主分配任务、决策并推进项目。其核心包括ADK开源框架、MCP工具调用协议、Vertex AI生产部署引擎及A2A智能体协作协议，支持串行、并行等工作流，并具备记忆功能。实际应用表明，AI能在几秒到几分钟内完成以往需数小时的任务，将“AI建公司”从概念转化为可复制的工程模板，推动工作模式向人类指挥AI团队转型。

智能体AnthropicGoogleMCP/工具

00:58

TestingCatalog News 🗞@testingcatalog

TinyFish宣布其网页搜索与抓取功能即日起向所有开发者和AI智能体免费开放，并提供宽松的调用频率限制。搜索功能可为智能体提供低延迟响应，抓取功能支持真实浏览器渲染、纯净Markdown或JSON格式输出。该服务兼容Claude Code、OpenClaw、Cursor、Codex、n8n、Dify等多种开发环境和AI工具。用户无需绑定信用卡即可通过指定链接获取API密钥。

智能体产品更新搜索

00:56

Nathan Lambert@natolambert

我们需要为某些中国实验室对API进行的攻击创造一个新术语，以区别于蒸馏，否则我们可能会玷污一项对AI扩散、学术研究和开源生态系统至关重要的关键技术。 https：//www.interconnects.ai/p/the-distillation-panic

大佬观点安全/对齐数据/训练

00:54

Google Developers Blog（RSS）

精选69

在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理

加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash，一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈，通过单次前向传播并行“绘制”整个候选令牌块，而非逐个预测。系统平均实现了3.13倍的推理加速，峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统，通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测，显著优化了TPU硬件的利用效率。

Google开源生态推理论文/研究

推荐理由：把扩散式的 speculative decoding 在 TPU 上跑出了 3 倍推理加速，峰值快到 EAGLE-3 的两倍，还直接集成了 vLLM，做推理优化的赶紧试一下。

00:45

Elon Musk@elonmusk

在"Vals AI"的私人基准测试中，Grok 4.3在法律和金融领域展现出领先的智能水平。它在CaseLaw （v2）测试中以79.31%的准确率排名第一，该测试基于真实加拿大法庭案例，评估深度法律推理和先例理解能力，表现优于GPT-5.1。同时，它在针对复杂长期信贷协议的CorpFin （v2）测试中以68.53%的准确率夺冠，评估了对多页金融合同条款、风险的理解。这些模拟高风险现实挑战的测试表明，Grok 4.3在最困难的任务中具备卓越的推理能力。xAI正致力于构建世界所需的推理引擎。

xAI推理评测/基准

00:28

TestingCatalog News 🗞@testingcatalog

Perplexity 正在开发一项新的 Digest 功能。该功能似乎与即将推出的 Perplexity Computer Context 相关联，并可能能够从已连接来源提取近期上下文，整合成个人聚合摘要。

产品更新搜索

00:28

Google Gemini@GeminiApp

帮助我们打造I/O倒计时！使用Gemini Canvas，用代码挥洒你最富创意的想法，并在5月6日前通过下方链接发送给我们。游戏？流体模拟器？可演奏合成器？唯一的规则是必须包含一个1到10之间的大数字。最有趣的创作将在Google I/O 2026的大屏幕上展示！获取更多信息并提交作品，请访问：https：//io.google/2026/codethecountdown 查看回复中的示例项目以获取灵感⬇️

Google行业动态

00:26

Epoch AI@EpochAIResearch

探讨AI基准测试的困境与未来方向

针对“AI基准测试是否已失效”的悲观论调，讨论者进行了反驳，并深入探讨下一代AI基准测试的可能形态。核心议题包括基准测试开发的成本与收益、可扩展基准（如MirrorCode）的构建、AI技术对基准开发本身的加速作用，以及当前基准测试与现实应用能力之间存在的差距。对话还触及了构建通用人工智能（AGI）基准的可行性，并展望了超越自动化评分的更全面评估方法。

数据/训练评测/基准

00:26

Ethan Mollick@emollick

Anthropic 的联合创始人，有趣的是他引用公开来源，而他显然也知道许多无法讨论的内部来源。我猜他在 Anthropic 也看到了同样的事情。

Anthropic大佬观点安全/对齐

00:14

阿绎 AYi@AYi_AInotes

精选71

一个100行的文件，干翻了所有LLM编码prompt

一个名为CLAUDE.md的百行文件在GitHub上迅速走红，一周内获得超4.4万星。它没有依赖和配置，仅将Andrej Karpathy总结的LLM编码坏习惯浓缩为四条核心规则：先思考再编码、简约至上、手术式修改、目标驱动执行。开发者只需将其置于项目根目录，Claude Code等工具便能自动读取并遵循，从而显著提升代码质量，减少返工和token浪费。此举被视为对当前需要反复纠正AI模型的开发体验的集体反叛，以零成本方案为AI编码设定明确规范。

MCP/工具教程/实践编码

关联讨论 1 条

推荐理由：一个100行文件干翻一堆Agent框架，本质是开发者受够了哄模型，不如直接定规矩。如果你也用Claude Code，花一分钟扔进去，Token浪费砍半不是夸张。

00:14

Berryxia.AI@berryxia

DeepMind CEO将AGI实现时间表明确设定于2030年

DeepMind CEO Demis Hassabis在AI Ascent 2026上明确将AGI实现时间定于2030年，并指出AI将极大加速药物发现、材料科学等“慢科学”领域，把研发周期从数年压缩至数天。他强调，未来1-2年是关键拐点，真正改变世界的将是AI推动科学迭代速度的指数级加速，而非AGI降临的瞬间。

DeepMind大佬观点现象/趋势

00:14

Berryxia.AI@berryxia

为庆祝母亲节，全球首个家庭AI--Nori发起了"妈妈梦想，我们用AI实现"挑战赛。该赛事鼓励参与者利用Nori AI，针对母亲们日常面临的实际痛点（如日程混乱、膳食计划、购物清单等）开发实用的AI工具。优胜者将由社区投票选出，并获得1000美元奖金。Nori AI旨在通过自然语言指令，一站式管理家庭日程、任务、膳食等繁杂事务。

智能体行业动态

00:14

IT之家（RSS）

倍耐力把传感器塞进轮胎，力图让车辆知道自身精确位置、应对周边环境

倍耐力与瑞典科技公司Univrses合作，持有其30%股权，以强化Cyber Tyre智能轮胎技术。该系统将传感器集成于轮胎内部，结合外部摄像头和AI计算机视觉，使车辆能精确感知自身位置并实时应对环境变化。2025年，双方在意大利普利亚大区启动道路监测试点，利用轮胎数据与视觉技术构建持续更新的道路地图。该技术仍处概念验证阶段，但已进入深入开发，未来轮胎有望成为互联出行中的重要数据源。

端侧行业动态

00:14

IT之家（RSS）

精选71

Claude Token 榜：迪士尼「榜一大哥」9 天 46 万次，Meta 月烧 60 万亿

迪士尼内部上线AI使用看板，追踪员工调用Claude的频率和token消耗。数据显示，一名员工在9个工作日内调用Claude约46万次，平均每1.7秒一次。与此同时，迪士尼正裁员约1000人。硅谷正流行“tokenmaxxing”文化，比拼AI token消耗量。Meta内部统计显示，其8.5万名员工在30天内消耗了60万亿token，价值约900亿美元；Uber的年度34亿美元AI预算在4个月内耗尽。报告显示，Claude用户中非程序员用途已超半数。

Anthropic数据/训练现象/趋势

推荐理由：迪士尼搞AI排行榜，Meta月烧60万亿token，这不是段子，是AI真实渗透的活证据。从律师到全职妈妈，所有人都开始用Claude打工，这股浪潮比任何财报都真实。

00:11

Nathan Lambert：Interconnects（RSS）

蒸馏恐慌

AI领域出现“蒸馏攻击”现象，即利用GPT-4等闭源模型的输出训练更小的开源模型。这引发了关于知识产权与创新平衡的激烈争论。支持者视其为技术民主化途径，反对者则谴责其侵犯版权并可能损害模型质量。目前，部分开源模型性能已快速逼近顶级闭源模型，迫使行业重新审视数据使用边界与合规框架。

大佬观点数据/训练现象/趋势

00:11

Tomer Tunguz 博客（VC 分析）

精选63

每日仅需8条广告，广告支持型AI的经济可行性分析

基于开源模型和商用GPU的广告支持型AI在经济上可行。计算表明，一个由4块B200 GPU组成的集群服务300名用户时，每小时成本约18美元。通过广告收入即可覆盖成本：在内容网络中每3分钟展示一条广告（CPM 3.12美元），或在搜索广告中每39分钟展示一条（CPM 38.40美元），这一广告频率已与常见的移动和网页应用相当。对于代码代理等高强度任务，可采用混合盈利模式：用户每月支付10美元订阅费并每日观看8条广告，即可支持约200万token的用量，这证明了该模式的实用性。

开源生态推理现象/趋势

推荐理由：Tunguz 用一页纸的算账说清了广告支持 AI 的经济账，一天看 8 条广告就能换两百万 token，这对做免费 AI 产品的团队是个真正有说服力的模型。

5月4日

23:56

swyx 🇸🇬@swyx

演讲者基于长期支持，特邀Patrick Debois在欧洲会议进行主题演讲。Debois指出，当前AI编程中语境是工程化最不足的层面。他认为，如果智能体由提示、规则和记忆驱动，那么语境理应获得与代码同等的工程严谨性。该观点呼应了AI工程师社区对语境层重要性的讨论。

智能体大佬观点编码

23:56

Hacker News 热门（buzzing.cc 中文翻译）

精选72

Show HN： Ableton Live MCP

这是一个名为 Ableton Live MCP 的开源项目，它通过模型上下文协议（MCP）将 Ableton Live 音乐制作软件与大型语言模型（如 GPT、Claude）连接起来。该项目在 Hacker News 上获得了 100 点热度，其核心功能是让 LLM 能够读取和控制 Ableton Live 的会话数据，从而可能实现基于自然语言指令的音乐创作与自动化流程。

MCP/工具开源/仓库

推荐理由：给 Ableton Live 接上了 LLM 的大脑，让 AI 能直接操作 DAW，虽然还只是原型，但已经能看到未来音乐制作的人机协作模式。做音频 Agent 的可以拿来玩。

23:48

Chubby♨️@kimmonismus

Anthropic的Jack Clarke现在认为，递归自我改进有60%的概率在2028年底前发生。

Anthropic大佬观点