AIHOT

4月26日

16:52

The Decoder：AI News（RSS）

38

调查显示：在美国，Claude的周活跃用户比其他AI助手用户富裕得多

一项针对美国主要AI助手用户收入的调查显示，Claude的用户群体收入显著更高。其周活跃用户中，年收入超过15万美元的高收入者占比高达41%，远高于ChatGPT（28%）、Google Gemini（24%）和Microsoft Copilot（20%）。而在年收入低于5万美元的用户中，Claude的占比最低，仅为11%。这些数据表明，Claude在美国市场成功吸引了更为富裕的用户，其用户收入结构与竞争对手形成了鲜明对比。

Anthropic现象/趋势行业动态

16:22

The Decoder：AI News（RSS）

51

研究者认为：AI agent 并非取代软件工程，而是将其拓展至远超代码的范畴

查尔姆斯理工大学和沃尔沃集团的研究人员在一篇新论文中指出，认为AI智能体将取代程序员的主流观点并不准确。研究认为，AI智能体不会导致软件工程消亡，而是将这一学科的核心活动从传统的代码编写，大幅拓展至更广泛的系统设计、需求工程、测试与维护等领域。这意味着软件工程师的角色将发生演变，其工作范畴将远远超出单纯的编程。

智能体现象/趋势编码

关联讨论 1 条

11:52

Hacker News 热门（buzzing.cc 中文翻译）

62

一名借助ChatGPT的业余爱好者解决了埃尔德什问题

一名业余数学爱好者借助ChatGPT成功解决了一个存在60年的埃尔德什难题，这一突破在Hacker News上获得108点热议。该问题长期悬而未决，此次解决展示了人工智能工具在辅助数学研究中的潜力，突显了AI如何赋能非专业研究者推动科学进展。

OpenAI推理现象/趋势

10:52

Hacker News 热门（buzzing.cc 中文翻译）

56

知识工作的幻象

文章《知识工作的幻象》批判了现代知识工作日益沦为一种“拟像”的现象。大量工作偏离创造真实价值的核心，转而追求流程合规、指标可视化和内部沟通等形式。工作者将超过40%的时间耗费在制作报告、更新看板和参加会议等“表演性”任务上，而非实质性产出。这不仅降低了工作效率与创新潜力，还加剧了职业倦怠，最终使工作本身异化为一场空洞的仪式。

大佬观点现象/趋势

09:20

IT之家（RSS）

41

Momenta 曹旭东研判：智驾领域中国最多 3 家、全球最多 4 家供应商会胜出

Momenta CEO曹旭东在北京车展期间指出，智能驾驶行业规模效应与先发优势极强，软件边际成本为零，规模能同时推动成本下降与体验提升。他判断行业格局将快速收敛，最终中国市场上仅会有2至3家、全球范围内仅会有3至4家供应商胜出。目前，Momenta已与全球多家主流车企合作，累计定点车型超200款，交付量产车型70余款，解决方案搭载车辆突破80万台，并已出海至10个国家。上汽大众全新SUV ID. ERA 9X将全球首发搭载其按L4级标准打造的R7强化学习世界模型。

大佬观点现象/趋势行业动态

06:22

Hacker News 热门（buzzing.cc 中文翻译）

54

人工智能行业正发现，公众其实很讨厌它

人工智能行业正面临日益增长的公众反感与信任危机。多项调查显示，公众对AI的负面情绪显著上升，例如皮尤研究中心数据表明多数美国成年人对此技术感到担忧。行业内部报告也承认，用户对AI产品的热情正在消退，实际使用率和满意度低于预期。这种情绪导致部分AI应用下载量下降，并促使科技公司调整策略，更强调“负责任AI”和透明度以挽回公众信任。

政策/监管现象/趋势

06:22

Hacker News 热门（buzzing.cc 中文翻译）

58

利用编程辅助工具，让那些你本打算放弃的项目重获新生

编程辅助工具能帮助开发者重启那些曾被搁置或放弃的软件项目。通过自动生成代码、提供重构建议和解释复杂逻辑，这些工具显著降低了继续开发旧项目的心理与技术门槛。实践表明，开发者利用此类工具可在数小时内恢复对陈旧代码库的理解，并实现新功能。这改变了“必须独立完成所有代码”的传统观念，强调以工具为杠杆提升生产力，让半成品项目有机会真正完成并产生价值。

智能体大佬观点编码

03:21

Hacker News 热门（buzzing.cc 中文翻译）

34

快速体验在 Firefox 上运行的 Mythos：是否被过度炒作了？

文章对在Firefox浏览器上运行的Mythos进行了快速体验评估，并对其市场热度提出质疑。Mythos作为一款备受关注的新应用或平台，此次在Firefox上的运行表现是评测重点。文中提及了实际体验中的具体变化或性能指标，但未详细列出核心数据。最终观点指向Mythos可能被过度炒作，其实际体验并未完全达到市场宣传的预期水平。

端侧评测/基准

02:19

Simon Willison 博客

36

AI图像模型的"自由发挥"：当鹈鹕骑自行车时，路牌在质问

用户@scottjla依据“鹈鹕骑自行车”测试框架，向ChatGPT Images 2.0模型提交了一个复杂提示，要求生成“马骑宇航员、宇航员骑鹈鹕、鹈鹕骑自行车”且保持平衡的混乱图像。模型生成的画面虽包含了这些核心元素，却自行添加了一个写有“WHY ARE YOU LIKE THIS”的路牌，以及披萨、罐头和牛仔帽等未在提示中要求的物件。这一案例揭示了当前文生图模型在理解与执行复杂指令时，可能自主引入带有超现实或评论性质的额外细节，反映了其创意逻辑与指令遵循之间的微妙偏差。

OpenAI图像生成教程/实践

4月25日

21:11

Simon Willison 博客

51

引用 Romain Huet 的推文

OpenAI 的 Romain Huet 确认，公司将不会发布独立的 GPT-5.5-Codex 模型。自 GPT-5.4 起，Codex 已与主模型统一为一个单一系统，不再有独立的代码生成模型线。GPT-5.5 在此基础上更进一步，在智能体编码、计算机使用以及任何在计算机上执行的任务方面都取得了显著的能力提升。

OpenAI编码行业动态

关联讨论 6 条

20:47

The Decoder：AI News（RSS）

60

美联储研究：自 ChatGPT 发布以来，美国程序员岗位增长近乎减半

美联储的一项新研究显示，自 ChatGPT 发布以来，美国程序员岗位的增长速度已近乎减半。生成式 AI 显著改变了程序员等专业群体的日常工作，这种影响现已体现在就业数据上。研究指出，程序员是受生成式 AI 影响最深的职业群体之一，其就业增长放缓是这一技术变革的直接反映。

现象/趋势行业动态

关联讨论 1 条

15:42

Hacker News 热门（buzzing.cc 中文翻译）

42

我还能属于科技圈吗？

一篇来自个人博客的文章《我还能属于科技圈吗？》在Hacker News上获得102点热度，反映了科技从业者对行业快速变化的普遍焦虑。文章核心探讨了在人工智能等技术浪潮冲击下，个体开发者产生的职业倦怠与身份认同危机。作者通过个人经历，质疑在技术迭代日益加速的背景下，传统技能与职业路径是否依然有效，并引发了对科技圈包容性与可持续性的思考。

大佬观点现象/趋势

14:42

Hacker News 热门（buzzing.cc 中文翻译）

43

将 IBM Quantum 后端替换为 /dev/urandom

一个GitHub项目演示了将IBM Quantum量子计算后端替换为Linux系统的伪随机数生成器/dev/urandom。实验表明，使用经典随机源替代后，在特定量子线路模拟任务中仍能产生与量子后端相似的输出结果，其保真度达到约0.5。该项目以讽刺手法质疑当前某些量子计算演示的实际效用，暗示其可能并未展现出超越经典随机过程的明显优势。

安全/对齐开源/仓库现象/趋势

13:11

Simon Willison 博客

精选70

GPT-5.5 提示指南

OpenAI 针对新发布的 GPT-5.5 API 模型发布了详细的提示指南。核心建议包括：在处理多步骤任务时，应在调用工具前先向用户发送简短的状态更新，以提升交互体验。官方强调 GPT-5.5 应被视为一个需要重新调优的新模型系列，而非 GPT-5.2 或 GPT-5.4 的直接替代品，建议从零开始构建提示，而非沿用旧有提示。开发者可通过 `openai-docs` 技能使用 `$openai-docs migrate this project to gpt-5.5` 命令来辅助代码迁移，官方升级指南中还包含了轻量的提示词改写建议。

OpenAI教程/实践

关联讨论 1 条

推荐理由：OpenAI 官方明确说 GPT-5.5 不能当 drop-in replacement，prompt 要从零重写。做产品的人别偷懒直接换模型名，先读这份指南再动手，省得上线翻车。

4月24日

20:45

Hacker News 热门（buzzing.cc 中文翻译）

58

Show HN：大型语言模型的工作原理--基于卡帕西（Karpathy）讲座的交互式图解指南

基于AI专家卡帕西讲座的交互式图解指南已发布，详细解析大型语言模型（LLMs）的工作原理。该指南以动态可视化形式呈现，简化了LLMs的架构、训练和推理过程等复杂概念，提升学习可访问性。在Hacker News社区获得103个赞，显示其受关注程度。用户可通过在线链接直接体验这一教育工具，深入了解LLMs内部机制。

教程/实践现象/趋势

19:08

IT之家（RSS）

39

Perplexity CEO 阿拉温德：AI 不会颠覆 iPhone，反而会强化其"数字护照"地位

Perplexity首席执行官阿拉温德·斯里尼瓦斯表示，AI不会颠覆iPhone，反而会随着AI能力增强，进一步强化iPhone作为用户“数字护照”的地位。他指出，苹果凭借其独有的生态系统、芯片与硬件优势，以及用户信任，构建了坚固的护城河。即使Siri改进缓慢，iPhone仍能持续成功，因为它整合了银行卡、通行证、健康记录、FaceTime、iCloud照片等众多核心生活功能。

大佬观点现象/趋势

16:08

IT之家（RSS）

43

Claude Code 产品负责人 Cat Wu：人们对 AI 高速发展感到焦虑

Anthropic 公司 Claude Code 产品负责人 Cat Wu 指出，AI 领域的激烈竞争导致各大公司以前所未有的速度发布新功能，功能领域也高度重叠，这使用户产生了焦虑和错失恐惧症，感觉必须每日关注更新才能跟上节奏。她透露，仅今年前三个月 Anthropic 就推出了超过 45 项新功能。然而，快速发布也引发了问题，例如近期用户抱怨 Claude Code 回应质量下降，公司否认故意降质并已发现三个潜在问题。Cat Wu 希望未来能打造更“减压”的产品，帮助用户轻松学习，而非在快速迭代中疲于追赶。

Anthropic大佬观点现象/趋势

16:08

IT之家（RSS）

28

英特尔副总裁：E 核游戏性能不弱，表现不如 AMD 只是因为软件未针对其 CPU 优化

英特尔副总裁罗伯特·霍尔洛克表示，英特尔与AMD在PC游戏性能上的差距主要源于软件优化不足，而非硬件缺陷。他指出，关闭能效核（E核）对游戏性能的影响微乎其微，仅约1%。部分游戏和引擎因未针对混合架构优化，导致核心调度出错，可能损失10%-30%的性能。他强调，若软件优化到位，英特尔CPU的游戏性能有望接近或超越AMD Ryzen X3D系列。

其他行业动态

12:23

Simon Willison 博客

41

Millisecond Converter

Simon Willison 发布了一个名为 Millisecond Converter 的在线工具，专门用于将 LLM 报告的提示持续时间从毫秒自动转换为更易读的秒和分钟单位。该工具解决了用户需要手动进行时间单位换算的不便，可通过特定网址直接访问，并被归类为实用工具类别。

其他部署/工程

12:09

Simon Willison 博客

38

本期邮件通讯内容包含：4只骑自行车的鹈鹕、1只骑电动滑板车的负鼠、最多5只携带火腿无线电并隐藏在人群中的浣熊。此外还收录了5篇博客文章、8个链接、3条引用，并发布了《智能体工程模式指南》的新章节。所有内容已同步推送至订阅者邮箱。

智能体大佬观点

11:08

IT之家（RSS）

64

开源网络工具 cURL 开发者示警"高质量混乱"：AI 提速漏洞挖掘，开源维护者修不过来

cURL开发者Daniel Stenberg警示，AI生成的漏洞报告已从“垃圾信息”演变为“高质量混乱”。2026年报告提交频率激增至2025年的2倍，平均间隔跌破25小时，导致维护者工作量指数级增长。尽管报告质量提升，真实漏洞确认比例反弹至约16%，但高频提交仍使维护者不堪重负。同时，AI工具也缩短了攻击者的漏洞挖掘时间，可能在修复前被利用，加剧了安全风险。

安全/对齐开源生态现象/趋势

09:31

Simon Willison 博客

64

关于近期Claude代码质量报告的更新说明

Anthropic确认，过去两个月用户关于Claude代码质量下降的投诉确实源于真实问题。根本原因并非模型本身，而是其运行框架中的三个独立故障。其中一个关键故障是：3月26日的一项更改本应在会话闲置一小时后清除Claude的旧思考以降低延迟，但一个错误导致此清除操作在后续每个回合都重复发生，致使Claude显得健忘且重复。这些框架层面的故障复杂且直接影响用户体验，尤其对需要长期会话的代理系统构建者有重要参考意义。该公司已发布详细的事后分析报告。

Anthropic大佬观点编码

关联讨论 1 条

09:08

IT之家（RSS）

43

Perplexity CEO 称 AI 越强苹果 iPhone 越重要，个人数据构筑核心壁垒

Perplexity首席执行官阿拉温德·斯里尼瓦斯指出，AI发展不会颠覆iPhone，反而会提升其作为“数字护照”的重要性。AI系统依赖上下文信息提供精准服务，而iPhone存储着支付、身份、健康等核心个人数据，这些数据价值随AI能力增强而提升，构成了苹果的关键壁垒。同时，AI运算正向终端转移，利用Apple Silicon硬件实现本地运行，这不仅能降低延迟，也更符合苹果的隐私保护模型，避免敏感数据外泄。

大佬观点现象/趋势端侧

09:08

IT之家（RSS）

34

马斯克：长期来看，特斯拉唯一"人驾"车型就是全新 Roadster

马斯克在特斯拉财报会上表示，从长期看，除全新Roadster外，特斯拉全系产品都将转向自动驾驶。这意味着公司战略重心已几乎完全押注于自动驾驶，而Roadster的角色则转变为专为想亲自驾驶的用户保留的“光环车型”。然而，该车型自2017年亮相后屡次延期，最新股东文件显示其生产设施“待定”、处于“设计开发阶段”，距离真正投产仍需多年。

现象/趋势行业动态

08:08

IT之家（RSS）

21

IT早报 0424：华为乾崑智驾 ADS 5 发布；苹果 iPhone 18 Pro Max 金属机模曝光；去机顶盒，一体化电视全国推广启动；爱奇艺回应暂停页广告"不当内容争议"…

华为在乾崑技术大会上发布面向自动驾驶的乾崑智驾ADS 5系统，奕境汽车首款旗舰SUV奕境X9及全新红旗H9将搭载该系统。苹果iPhone 18 Pro Max金属机模曝光。全国范围启动一体化电视推广，电视机将内置机顶盒功能。爱奇艺回应剧集暂停页广告争议，称已下架相关广告并加强审核。淘宝天猫上线售后AI假图识别模型，以应对利用AI生成虚假凭证的恶意退款行为。此外，日本福岛核电站2号机组测得“极高”水平核辐射，蔡磊透露部分渐冻症药物已进入临床试验。

其他行业动态

05:54

Simon Willison 博客

64

在浏览器中提取PDF文本：LiteParse推出网页版

LlamaIndex开源项目LiteParse现已推出网页版，用户可直接在浏览器中上传PDF并提取文本，所有处理均在本地完成，无需上传服务器。该工具基于PDF.js和Tesseract.js，采用空间文本解析技术，能智能识别多列布局等复杂格式，并支持OCR和非OCR两种模式。作者在原Node.js CLI工具基础上，借助Claude AI辅助开发，成功将其迁移至浏览器环境。示例显示，一个86页的PDF文件可被快速解析，输出文本及包含位置、字体等元数据的JSON结果。

智能体大佬观点教程/实践编码

03:59

Simon Willison 博客

精选74

通过半官方Codex后门API为GPT-5.5生成"骑自行车的鹈鹕"

尽管GPT-5.5的官方API尚未发布，但作者利用OpenAI为OpenClaw等工具开放的订阅集成机制，通过反向工程开源Codex CLI，开发了一个LLM插件。该插件允许付费订阅用户通过Codex后端API调用GPT-5.5模型。文章以生成“骑自行车的鹈鹕”SVG图像为例，展示了其使用效果，并指出高推理强度设置能显著提升输出质量，但耗时更长。目前，OpenAI表示正与合作伙伴制定API大规模服务的安全要求。

OpenAI大佬观点模型发布评测/基准

关联讨论 5 条

推荐理由：Simon Willison 不只评测 GPT-5.5，还顺手逆向 Codex 做了个用订阅跑 API 的插件。定价翻倍、xhigh 模式四分钟出图这些细节，比官方通稿有用十倍，做选型的人该看这篇而不是 OpenAI 博客。

03:22

Simon Willison 博客

58

llm-openai-via-codex 0.1a0 发布

开发者 Simon Willison 发布了 llm-openai-via-codex 工具的 0.1a0 版本。该工具能够劫持用户的 Codex CLI 凭证，转而通过 LLM 工具来调用 OpenAI API。这一功能在其关于 GPT-5.5 的博客文章中有所描述。发布版本标签包括 openai、llm 和 codex-cli。

OpenAI教程/实践编码

4月23日

08:00

Hugging Face：Blog（RSS）

精选57

如何在 Chrome 扩展中使用 Transformers.js

本文介绍在 Chrome 扩展中集成 Transformers.js 库的具体方法，涵盖从环境配置、模型加载到前后端通信的关键步骤。通过示例代码演示了如何利用该库在扩展中实现本地机器学习推理，同时处理扩展权限限制与安全策略。文中还对比了 Web Worker 与 Service Worker 两种部署方案，并提供了性能优化建议，帮助开发者在浏览器扩展环境中高效运行 Transformer 模型。

开源生态教程/实践端侧

推荐理由：Hugging Face 官方出的 Transformers.js 浏览器插件教程，想在 Chrome 里跑端侧推理的前端开发者可以直接抄，省掉自己踩坑的时间。

4月21日

20:00

Cursor Blog

精选55

保持 Cursor 应用稳定

Cursor 团队针对用户全天依赖应用、崩溃影响严重的问题，聚焦内存不足导致的崩溃。通过为多进程架构设计细粒度监控系统，实时追踪版本发布后的崩溃指标。采用双重调试策略：自上而下关联功能与崩溃数据，监控大消息负载；自下而上通过崩溃观察服务、堆快照等定位根本原因。自2月底以来，全版本会话OOM率下降80%，自3月1日起请求OOM率下降73%。具体措施包括处理大文件加载和修复资源泄漏，以应对突发与渐进性内存耗尽。

现象/趋势编码部署/工程

推荐理由：Cursor 把自家 OOM 问题的排查方法论完整公开了，自顶向下加自底向上的双线调试思路对做桌面端 Agent 产品的人有参考价值，但本质上是工程复盘而非行业事件。

4月14日

20:00

Cursor Blog

精选62

多智能体系统将GPU内核性能提升38%

我们与NVIDIA合作，利用自主运行的多智能体系统，在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别，实现了38%的几何平均速度提升，其中63%的问题超越基线，19%实现超2倍优化。这些内核直接影响AI训练与推理效率，传统上需资深工程师耗时数月乃至数年的优化工作，该系统在数周内即自主完成，并能探索更广阔解决方案空间，突破了人工逐项优化的限制。

智能体现象/趋势编码部署/工程

推荐理由：Cursor 把自家多 Agent 系统拉去优化 CUDA 内核，38% 的 geomean 提速不算炸裂，但真正值得看的是它证明了 Agent 可以在无人干预下跑三周啃硬骨头，这对做 Agent 产品的人是个强信号。

4月10日

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

27

AI fundamentals

文章是一份面向初学者的清晰指南，旨在解释人工智能的基本概念与工作原理。它阐述了什么是人工智能，并重点说明了以ChatGPT为代表的工具如何利用大型语言模型（LLM）来运作。内容涵盖了AI的核心定义、运作机制，以及具体工具的应用方式，为读者理解这一技术提供了基础框架。

其他教程/实践

3月26日

08:00

Cursor Blog

精选69

通过实时强化学习改进Composer编码模型

Cursor团队将实时强化学习技术应用于Composer编码模型，利用真实用户交互产生的推理令牌作为训练信号，以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试，新版本实现了关键指标提升：代理编辑在代码库中的持久性增加2.28%，用户不满意后续减少3.13%，延迟降低10.3%。实时RL也带来了奖励黑客等新挑战，但真实用户反馈有助于识别和修正此类问题。

智能体现象/趋势编码

推荐理由：Cursor 把真实用户交互当训练信号，每五小时迭代一次 Composer，这不是论文是工程日志。做 coding agent 的团队该看看他们怎么处理 reward hacking 的两个真实案例，比任何 benchmark 论文都实在。

3月24日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

利用对抗网络灵感设计多代理架构，突破长时应用开发瓶颈

作者受生成对抗网络启发，设计了一个包含规划器、生成器和评估器的三代理架构，以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制，有效克服了模型在长任务中的“上下文焦虑”问题；同时，通过分离生成与评估功能，使代理能依据具体标准进行迭代改进，而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序，突破了此前提示工程和传统工具设计的性能上限。

智能体Anthropic教程/实践编码

推荐理由：Anthropic 工程师把 GAN 的 generator-evaluator 思路搬进长时 Agent 架构，从设计到全栈编码都跑通了，还附了成本和失败模式。做 Agent 产品的人读完能直接抄作业，比看十篇论文管用。

3月23日

00:00

Anthropic：Research（发表成果 · 网页）

精选71

利用长时运行智能体工作流革新科学计算

Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例，该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言，即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后，让智能体团队自主工作，仅需偶尔人工监督，从而显著提升了科学代码开发与移植的效率。

智能体Anthropic教程/实践编码

推荐理由：Anthropic 研究员用 Claude Opus 4.6 花几天从零写出了一个宇宙学 Boltzmann 求解器，原本是博士级团队几个月的活。这不是论文，是一份完整的多日 Agent 工作流实操手册，做科研或长周期编码的人可以直接抄作业。

2月5日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选78

用并行Claude智能体团队从零构建C编译器

研究人员采用“智能体团队”方法，让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试，团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元，最终产出10万行代码的编译器，可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架，包括如何编写测试以保持智能体不偏离方向，以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。

智能体Anthropic大佬观点编码

推荐理由：Anthropic 研究员用 16 个 Claude 并行写了个能编译 Linux 内核的 C 编译器，2000 次会话花了两万刀。真正值钱的不是编译器本身，而是他总结的 agent 团队协作方法论，做多 agent 系统的人该逐段拆。

1月21日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

设计抗AI技术评估的实践

Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初，团队使用带回家测试评估候选人优化模拟加速器代码的能力，超1000人参与，成功招聘数十名工程师。但随着Claude模型快速迭代，Opus 4已超越多数人类申请者，Opus 4.5甚至匹配顶尖候选人，导致在时间限制下难以区分人类与AI输出。为此，作者三次重设计测试，探索抗AI评估要素，详述原始设计、模型破解方式及非常规对策。最终，团队将原始测试作为公开挑战发布，因无时间限制时人类表现仍优于Claude。

Anthropic大佬观点现象/趋势

推荐理由：Anthropic 性能优化负责人亲手写了三版面试题被自家模型逐一击穿的全过程，这种坦诚的工程复盘比任何 AI 能力排行榜都更真实地告诉你，模型到底强到了什么程度。

1月9日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

揭秘AI智能体评估：构建可靠系统的关键

有效的评估能帮助团队更自信地发布AI智能体，避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性，评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果，其价值在智能体整个生命周期内持续累积。

智能体Anthropic教程/实践评测/基准

推荐理由：Anthropic 把内部踩过的坑全摊开了，从 eval 设计到 grader 选型到 transcript 审读，是目前最完整的 Agent 评估工程指南，做 Agent 产品的团队可以直接当手册用。

12月4日

08:00

OpenRouter：Announcements（RSS）

53

2025 年 AI 现状报告

a16z 联合发布《2025 年 AI 现状报告》，这是迄今为止对开发者和组织在现实世界中使用语言模型情况最大规模的实证研究。报告基于广泛的实际应用数据，系统分析了 GPT、Claude、LLaMA 等主流模型在企业和开发环境中的采用趋势、工作流集成方式以及关键性能指标。研究揭示了模型选择偏好的显著变化、实际部署规模的增长数据，以及成本、延迟和输出质量等核心维度的最新基准。

OpenAI现象/趋势

12月2日

06:00

OpenAI：Alignment 研究博客（RSS）

38

OpenAI正式开设了专注于对齐研究的官方博客。该博客旨在分享其在人工智能对齐领域的研究进展、技术见解和最新成果，致力于探索如何使AI系统与人类意图和价值观保持一致。此举标志着OpenAI将更系统、透明地向公众和学界公开其对齐工作的核心内容与思考。

OpenAI安全/对齐