AIHOT

4月14日

15:33

宝玉@dotey

精选72

为什么你的"AI优先"战略可能大错特错？

文章指出，盲目追求“AI优先”战略可能是错误的，真正的瓶颈在于软件工程基础。如果自动化测试、CI/CD流程、A/B测试与监控、任务管理和系统架构等基础不扎实，AI的效能将无法释放。真正的“AI优先”应是一种推动必要工程改进的意识和动力，促使企业夯实基础，从而释放AI的生产力。

智能体大佬观点现象/趋势部署/工程

推荐理由：宝玉把一篇「AI First」的英文长文拆成了工程落地清单，不是喊口号而是列了五条前置条件和三个不适合的场景，做产品或带团队的人拿来对照自己的现状，比读原文有用。

05:25

Rohan Paul@rohanpaul_ai

33

能动性远胜于智能

智能体大佬观点

04:25

swyx 🐣@swyx

38

顺便说一句，全球约80%的智能体和AI工程都集中在这3平方英里的区域内

大佬观点现象/趋势

04:25

swyx 🐣@swyx

60

如果你想提升写作水平，Anh是我在开发工具HN社区中认识的最稳定输出的高手之一，她刚刚开源了她的写作技能模板供你使用！【引用 @byAnhtho】：http：//x.com/i/article/2043500390885494784

开源/仓库教程/实践

03:56

DogeDesigner@cb_doge

25

Grok 4.20 正在碾压 BridgeBench。🔥 速度排名第一推理排名第一幻觉控制排名第一击败了 GPT-5.4、Claude Opus 4.6、Gemini、Qwen 等模型。

xAI行业动态评测/基准

03:25

Rohan Paul@rohanpaul_ai

39

Marc Andreessen：原始智力可能是领导力最差的资质--这彻底改变了我们思考AI的方式。 "如果领导者的智商与追随者相差超过一个标准差，那将是一个真正的问题。"

大佬观点现象/趋势

4月13日

14:11

DogeDesigner@cb_doge

0

这张照片是上周在火星拍摄的。

其他

09:19

DogeDesigner@cb_doge

4

埃隆·马斯克："传统媒体从不提及南非的白人种族灭绝，因为这不符合他们关于白人可能成为受害者的叙事。"

其他

08:51

DogeDesigner@cb_doge

10

到了这个地步，传统媒体已经毫无可信度可言。

其他

08:39

DogeDesigner@cb_doge

0

当特朗普总统指出南非白人农民及其家庭所遭受的种族主义时。

其他

02:26

DogeDesigner@cb_doge

14

🚨最新消息：埃隆·马斯克呼吁对南非实施严厉制裁，称该国因"极端反白人和反亚裔种族主义"应在全球范围内被回避

其他

01:39

DogeDesigner@cb_doge

11

"左派的目标是摧毁我的影响力。所以他们无情地推送关于我的负面宣传，并忽略任何积极的内容。他们是邪恶的。" 一 Elon Musk

其他

4月12日

23:39

DogeDesigner@cb_doge

26

Anthropic的Claude Opus正在下滑。最新基准测试显示，其准确率在短短几天内从83.3%降至68.3%。这在编码过程中的幻觉率出现了大幅飙升。 Grok 4.20仍保持第一的位置。未被超越。

现象/趋势评测/基准

4月11日

03:36

François Chollet@fchollet

31

对称性在物理学中如此重要的原因在于，对称性是一种高效的压缩算子。如果一个系统在某种对称性下保持不变，你只需解释它的一个轴向。科学模型代表着通过符号逻辑对宇宙内部冗余的系统性利用。

大佬观点

4月10日

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

27

AI fundamentals

文章是一份面向初学者的清晰指南，旨在解释人工智能的基本概念与工作原理。它阐述了什么是人工智能，并重点说明了以ChatGPT为代表的工具如何利用大型语言模型（LLM）来运作。内容涵盖了AI的核心定义、运作机制，以及具体工具的应用方式，为读者理解这一技术提供了基础框架。

其他教程/实践

4月9日

00:00

SemiAnalysis@SemiAnalysis_

32

Cameron Quilici 和 Bryan Shan 坐下来讨论 InferenceX 以及 SemiAnalysis 正在进行的工作。

行业动态部署/工程

4月8日

06:30

Haider.@haider1

39

我仍然无法释怀看看这些基准测试结果： > swe-bench 已验证：mythos 93.9% vs opus 4.6 80.8% > swe-bench 专业版：mythos 77.8% vs opus 4.6 53.4% > swe-bench 多语言版：mythos 87.3% vs opus 4.6 77.8% > swe-bench 多模态版：mythos 59.0% vs opus 4.6 27.1% > terminal-bench 2.0：mythos 82.0% vs opus 4.6 65.4%

现象/趋势编码评测/基准

4月3日

16:39

karminski-牙医@karminski3

精选72

Gemma4有8个模型，选哪个？一文看懂！

Google发布的Gemma4系列开放权重模型包含多个版本，选型需结合场景。带“-it”后缀为指令微调版，开箱即用；不带后缀为基座模型，供自行微调。其中，A4B指激活参数量为4B，E4B则采用逐层嵌入技术，以内存换取计算量，优化移动端性能。选型建议：综合性能与速度选26B-A4B；追求最佳代码或任务效果选31B；开发本地全模态应用选E4B；资源受限设备体验可选E2B，但输出质量有限。

Google开源/仓库教程/实践端侧

推荐理由：Gemma 4 一口气出了 8 个变体，本地部署的人最怕选错模型白折腾，这篇把选型逻辑拆得明明白白，从龙虾助手到树莓派都有对应方案，抄作业就行。

3月26日

08:00

Cursor Blog

精选69

通过实时强化学习改进Composer编码模型

Cursor团队将实时强化学习技术应用于Composer编码模型，利用真实用户交互产生的推理令牌作为训练信号，以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试，新版本实现了关键指标提升：代理编辑在代码库中的持久性增加2.28%，用户不满意后续减少3.13%，延迟降低10.3%。实时RL也带来了奖励黑客等新挑战，但真实用户反馈有助于识别和修正此类问题。

智能体现象/趋势编码

推荐理由：Cursor 把真实用户交互当训练信号，每五小时迭代一次 Composer，这不是论文是工程日志。做 coding agent 的团队该看看他们怎么处理 reward hacking 的两个真实案例，比任何 benchmark 论文都实在。

3月24日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

利用对抗网络灵感设计多代理架构，突破长时应用开发瓶颈

作者受生成对抗网络启发，设计了一个包含规划器、生成器和评估器的三代理架构，以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制，有效克服了模型在长任务中的“上下文焦虑”问题；同时，通过分离生成与评估功能，使代理能依据具体标准进行迭代改进，而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序，突破了此前提示工程和传统工具设计的性能上限。

智能体Anthropic教程/实践编码

推荐理由：Anthropic 工程师把 GAN 的 generator-evaluator 思路搬进长时 Agent 架构，从设计到全栈编码都跑通了，还附了成本和失败模式。做 Agent 产品的人读完能直接抄作业，比看十篇论文管用。

3月23日

00:00

Anthropic：Research（发表成果 · 网页）

精选71

利用长时运行智能体工作流革新科学计算

Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例，该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言，即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后，让智能体团队自主工作，仅需偶尔人工监督，从而显著提升了科学代码开发与移植的效率。

智能体Anthropic教程/实践编码

推荐理由：Anthropic 研究员用 Claude Opus 4.6 花几天从零写出了一个宇宙学 Boltzmann 求解器，原本是博士级团队几个月的活。这不是论文，是一份完整的多日 Agent 工作流实操手册，做科研或长周期编码的人可以直接抄作业。

3月22日

05:41

Eric@ericmitchellai

35

提交，执行

智能体教程/实践编码

3月20日

03:44

Hao AI Lab@haoailab

11

😃 【引用 @TechFollowrazzi】：🚨 @soumithchintala 关注了 @haoailab Hao AI Lab （@haoailab）是加州大学圣地亚哥分校的一个实验室，致力于开发强大、高效且可扩展的机器学习系统，其项目如 DistServe 和 FastVideo 在学术界之外也获得了关注。

行业动态

3月11日

09:58

Eric@ericmitchellai

26

制造机器的机器再制造机器

智能体大佬观点

2月7日

02:33

Saining Xie@sainingxie

49

推文观点认为，将自动驾驶视为专注于避障的低维行动空间二维机器人，能更快产生实际影响。Waymo世界模型的核心不止于视频生成，更是对连续、高维、多模态嘈杂信号的建模。该模型基于Google DeepMind的Genie 3构建，能创建大规模、超逼真的驾驶模拟。通过模拟如龙卷风、飞机降落高速公路等极端罕见场景，Waymo Driver可在真实遭遇前进行针对性训练，从而显著提升系统应对复杂情况的能力，加速自动驾驶技术的安全部署与成熟。

具身智能多模态大佬观点

2月5日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选78

用并行Claude智能体团队从零构建C编译器

研究人员采用“智能体团队”方法，让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试，团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元，最终产出10万行代码的编译器，可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架，包括如何编写测试以保持智能体不偏离方向，以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。

智能体Anthropic大佬观点编码

推荐理由：Anthropic 研究员用 16 个 Claude 并行写了个能编译 Linux 内核的 C 编译器，2000 次会话花了两万刀。真正值钱的不是编译器本身，而是他总结的 agent 团队协作方法论，做多 agent 系统的人该逐段拆。

2月4日

07:42

Saining Xie@sainingxie

26

事后看来显而易见

智能体大佬观点

02:31

Jim Fan@DrJimFan

精选72

从"下一个词预测"到"世界建模"：AI预训练的第二范式

作者指出，AI预训练正经历从“下一个词预测”到“世界建模”的根本性范式转变。世界模型的核心是预测给定行动后的下一个物理状态序列，本质上是可学习的物理模拟器，并将视觉置于首位。相比之下，当前主流的视觉语言模型本质是语言优先，视觉是次要输入。生物智能中视觉处理占据皮层计算的主导地位，是连接大脑、动作与物理世界的高带宽通道。作者以猿类为例，证明强大的物理智能可独立于高级语言存在。他预测，2026年大型世界模型将为机器人技术和多模态AI奠定真正基础，而YouTube等平台的海量视觉数据将远超文本规模，推动这一新范式发展。

具身智能多模态大佬观点

推荐理由：Jim Fan 把世界模型定义为第二次预训练范式转移，核心论点是视觉优先而非语言优先，这个框架对做机器人和多模态的人是真正的路线判断，不是又一篇水文。

1月21日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

设计抗AI技术评估的实践

Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初，团队使用带回家测试评估候选人优化模拟加速器代码的能力，超1000人参与，成功招聘数十名工程师。但随着Claude模型快速迭代，Opus 4已超越多数人类申请者，Opus 4.5甚至匹配顶尖候选人，导致在时间限制下难以区分人类与AI输出。为此，作者三次重设计测试，探索抗AI评估要素，详述原始设计、模型破解方式及非常规对策。最终，团队将原始测试作为公开挑战发布，因无时间限制时人类表现仍优于Claude。

Anthropic大佬观点现象/趋势

推荐理由：Anthropic 性能优化负责人亲手写了三版面试题被自家模型逐一击穿的全过程，这种坦诚的工程复盘比任何 AI 能力排行榜都更真实地告诉你，模型到底强到了什么程度。

1月15日

12:03

Lilian Weng@lilianweng

27

我今天跟很多人说过这句话：我非常享受与那些关心自己所构建之物并注重工艺的人共事。有机会从事自己热爱的事业，而不仅仅是谋生，是一种荣幸。我珍惜这份幸运，不会视之为理所当然。

大佬观点

1月9日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

揭秘AI智能体评估：构建可靠系统的关键

有效的评估能帮助团队更自信地发布AI智能体，避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性，评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果，其价值在智能体整个生命周期内持续累积。

智能体Anthropic教程/实践评测/基准

推荐理由：Anthropic 把内部踩过的坑全摊开了，从 eval 设计到 grader 选型到 transcript 审读，是目前最完整的 Agent 评估工程指南，做 Agent 产品的团队可以直接当手册用。

12月4日

08:00

OpenRouter：Announcements（RSS）

53

2025 年 AI 现状报告

a16z 联合发布《2025 年 AI 现状报告》，这是迄今为止对开发者和组织在现实世界中使用语言模型情况最大规模的实证研究。报告基于广泛的实际应用数据，系统分析了 GPT、Claude、LLaMA 等主流模型在企业和开发环境中的采用趋势、工作流集成方式以及关键性能指标。研究揭示了模型选择偏好的显著变化、实际部署规模的增长数据，以及成本、延迟和输出质量等核心维度的最新基准。

OpenAI现象/趋势

12月2日

06:00

OpenAI：Alignment 研究博客（RSS）

38

OpenAI正式开设了专注于对齐研究的官方博客。该博客旨在分享其在人工智能对齐领域的研究进展、技术见解和最新成果，致力于探索如何使AI系统与人类意图和价值观保持一致。此举标志着OpenAI将更系统、透明地向公众和学界公开其对齐工作的核心内容与思考。

OpenAI安全/对齐

11月26日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

为长时运行智能体设计有效约束方案

为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题，Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体，负责在首次运行时建立基础环境并生成功能清单；以及一个编码智能体，负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制，引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式，从而实现跨会话的持续有效协作。

智能体Anthropic教程/实践

推荐理由：Anthropic 把 Claude Agent SDK 跑长任务踩过的坑全摊开了，初始化 agent + 增量进度文件这套方案不复杂但极实用，做 Agent 产品的团队可以直接抄作业。

11月4日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议（MCP）连接的工具数量激增，传统预先加载所有工具定义并通过上下文传递中间结果的方法，导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间，且中间结果（如完整会议记录）在多次工具调用间重复传递，额外消耗数万令牌。文章提出解决方案：将MCP服务器呈现为代码API，使智能体能按需加载工具，并在执行环境中处理数据，仅将精简结果传回模型，从而显著减少令牌消耗、提升效率并降低成本。

智能体AnthropicMCP/工具教程/实践

推荐理由：Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」，用代码执行替代直接工具调用，token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition，这篇是必读的架构升级指南。

10月23日

08:00

OpenRouter：Announcements（RSS）

47

隐式缓存是提示词保留吗？

文章探讨了AI服务提供商采用的隐式缓存技术是否应被视为零数据保留策略。隐式缓存指服务商为提高响应速度与效率，在系统内部临时存储用户提示词与生成结果，而非明确告知用户。这引发了数据隐私与透明度争议，关键问题在于这种未声明的缓存行为是否违背了用户对数据立即删除的预期。客户需评估该技术是否满足其数据保留要求，尤其在处理敏感信息时。

安全/对齐行业动态部署/工程

10月14日

13:33

Ilya Sutskever@ilyasut

13

真是有史以来最棒的一天🎗️

其他

9月29日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选78

为AI智能体实施有效的上下文工程

随着AI应用从单次提示转向构建长期运行的智能体，焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息，包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长，模型回忆信息的准确性会下降。因此，上下文工程要求精心编排高价值信息，以有限的资源最大化产出期望结果，这已成为构建高性能、可操控智能体的关键。

智能体AnthropicMCP/工具教程/实践

推荐理由：Anthropic 亲自下场定义 context engineering 这个新范式，把 prompt engineering 之后的工程方法论讲透了。做 Agent 的人如果还在死磕 prompt，这篇会让你重新审视整个技术栈。

9月17日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

近期三次基础设施故障的事后分析

八月初至九月中旬，Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日，上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器，8月31日高峰时影响16%请求。8月25日，TPU服务器错误配置引发输出损坏，可能在英文回复中生成泰文或中文字符，影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞，主要影响Haiku 3.5。所有问题均非需求或负载所致，纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。

Anthropic安全/对齐部署/工程

推荐理由：Anthropic 主动公开三个基础设施 bug 的完整复盘，这种坦诚在大厂里极少见。做 AI 产品的人都该读一下，它把「模型质量下降」从玄学拉回了工程现实，尤其是 XLA 编译器那层的坑，踩过才知道多深。

9月11日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

为智能体编写高效工具--与智能体协作

文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体（如Claude Code）协作，采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括：选择适当的工具实现范围，使用命名空间明确功能边界，从工具向智能体返回有意义的上下文，优化响应以提高token效率，以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约，设计应优先考虑智能体的使用体验，而非传统开发者导向的API思路，以扩大智能体解决实际任务的能力。

智能体AnthropicMCP/工具教程/实践

推荐理由：Anthropic 把自家内部反复打磨的 agent 工具开发方法论完整公开了，从评估流程到 prompt 工程细节全是实操干货，做 MCP server 或 agent 工具链的人可以直接抄作业。