AIHOT

AI HOT

5月6日

04:31

Sam Altman@sama

chatgpt的新即时模型真是太棒了如果你一直只用思考模型的话，不妨试试这个！

OpenAI大佬观点

04:31

Epoch AI@EpochAIResearch

"经典"推理基准的配方很简单：纯文本、数小时的时间跨度、易于评分，并带有专家人类基线。接下来呢？在本周的Gradient Update中，@GregHBurnham 认为只需舍弃这四种成分之一即可。

现象/趋势评测/基准

04:01

Ethan Mollick@emollick

普通名词已经过时了： 1）具有精确含义 2）你实际上可以定价和衡量它 3）更有趣

大佬观点

03:57

Rohan Paul@rohanpaul_ai

贝莱德CEO芬克：算力需求或催生期货市场，否认AI存在泡沫

贝莱德CEO拉里·芬克指出，AI驱动的算力需求极其庞大，未来可能形成算力期货市场，使其成为可交易的金融资产。基于这一判断，贝莱德已通过投资数据中心、能源交易及与微软、英伟达等科技巨头合作进行布局，将算力需求转化为对电力、芯片等基础设施的投资。芬克否认AI存在泡沫，其核心论据是供应持续短缺——需求增速远超产能扩张，即使企业愿意高价支付也难以获得足够算力，从而对价格构成支撑。

大佬观点行业动态

03:57

Rohan Paul@rohanpaul_ai

GPT-5.5 与 Opus 4.7 在 ARC-AGI-3 上的得分低于 1%

AnthropicOpenAI推理评测/基准

关联讨论 1 条

03:31

DogeDesigner@cb_doge

ChatGPT 真笨。

OpenAI大佬观点

03:28

Claude：Blog（网页）

精选71

金融服务行业Claude部署指南发布

Anthropic发布金融服务行业Claude部署指南，详细介绍了Claude系列产品在金融研究、交易、承销、理赔及月末结算等场景的应用方案。指南包含产品矩阵、10个预置金融智能体模板（如招股书生成器、KYC筛查器等），并分享了AIG、澳大利亚联邦银行等机构的实践案例。同时，提供基础、试点、扩展三阶段实施路线图，旨在协助企业决策者与工程师规划AI落地路径，提升运营效率。

智能体Anthropic教程/实践部署/工程

关联讨论 4 条

推荐理由：Claude 官方首次系统性给出金融行业的部署指南，从产品矩阵到预建代理模板再到三阶段路线图，做金融 AI 落地的可以直接拿过来对齐。

03:17

Marc Andreessen 🇺🇸@pmarca

关于.. 【引用 @JordanSchachtel】：了解内情：Anthropic的顾问表示，现在是联邦政府为Anthropic的业务建立护城河的时候了，并引用了Anthropic的非公开信息。

Anthropic大佬观点政策/监管

03:17

Marc Andreessen 🇺🇸@pmarca

令人担忧。【引用 @amuse】：http：//x.com/i/article/2049873452354457600

大佬观点

03:17

Marc Andreessen 🇺🇸@pmarca

Elad Gil指出，想进入任何行业，最关键的是搬到该行业的中心集群所在地。针对AI领域，他引用数据称全球91%的AI私营科技公司市值集中在旧金山湾区一个10x10英里的区域内。他强调"在任何地方都能远程完成一切"的建议是误导，地理位置对职业突破至关重要。

大佬观点现象/趋势

03:12

Tomer Tunguz 博客（VC 分析）

精选63

当公司里每个人都是关键人物时

本文探讨了初创公司工程团队中AI与人力比例变化带来的结构性风险。当AI占比从10%提升至90%时，团队从20名工程师的传统层级结构，演变为仅由3名工程师核心操控大量自主代理的无管理层模式。核心权衡在于系统韧性而非吞吐量：将编排知识高度集中于极少数人，等同于以100%的利用率运行，一旦关键人员离职将造成33%的“制度记忆”损失。文章借鉴制造业保持70-90%利用率以维持系统稳健的经验，建议大多数初创公司应避免过早采用极高AI占比的模式，因为其中缺乏冗余和缓冲空间。

智能体现象/趋势部署/工程

推荐理由：当三个人管理着一支AI代理大军，任何一个人离开就是30%的知识蒸发。这篇文章用制造业利用率逻辑警告那些想用AI替换所有工程师的创始人：弹性才是真正的瓶颈。

03:12

Tomer Tunguz 博客（VC 分析）

精选55

优化软件工厂

软件工程团队中AI与人力比例的选择核心在于韧性而非吞吐量。在10/90比例下，约20名工程师使用Copilot等AI工具，保持传统层级结构；50/50比例时，12名工程师管理代理群，角色转向解决方案架构；90/10比例则仅需3名工程师核心操控自主代理，负责生成、测试和部署，无管理层级。高AI比例虽提升效率，但知识集中于少数人，团队利用率达100%，一旦人员离职将引发严重风险。借鉴制造业70-90%利用率原则，保持冗余可增强系统稳健性。因此，目前大多数初创公司不宜过度依赖AI。

智能体大佬观点编码

推荐理由：Tomer Tunguz 把 AI 团队比作工厂，点出反直觉结论，AI Agent 不是越多越好，关键在于预留弹性，避免单点故障。做工程管理的读完会重新算一算配比。

02:57

Artificial Analysis@ArtificialAnlys

MiniMax-M2.7模型在六大推理服务商上线，速度与价格差异显著

MiniMax-M2.7模型已在六家推理服务商上线，各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先，比其他提供商快3倍以上，但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出，Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿：前者性价比高，后者则以高价换取极致速度。此外，各家的高速缓存折扣政策不同，这对缓存密集型工作负载的成本影响显著。因此，最优选择高度依赖于具体工作负载对延迟和成本的敏感度。

推理评测/基准部署/工程

02:31

Sam Altman@sama

我想与那些利用5.5版本构建了惊人项目的人交流，这些项目在早期模型中是无法实现的。我特别关注那些消耗了巨额令牌预算的案例。谢谢。

OpenAI大佬观点

02:27

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

梦工厂联合创始人杰弗里·卡森伯格预测，AI将在三年内使动画电影制作成本降低90%，所需人力减少至原先的10%。这不仅将彻底颠覆娱乐产业，更将迅速波及所有行业。好莱坞艺术家的反抗凸显了危机感--AI已在艺术创作领域实现从低水平到超人类能力的飞跃。若其在操纵、编程、生物工程等领域取得类似突破，将引发大规模失业潮，可能促使有组织劳工运动复兴。尽管可能带来更多电影产出，但各行各业的游戏规则已被永久改变。

现象/趋势视频

02:15

Gary Marcus：The Road to AI We Can Trust（RSS）

研究揭示：主流AI自主智能体表现堪忧

近期一项对GPT-4、Claude 3等主流AI自主智能体的系统评估显示，其在复杂任务中的成功率普遍低于30%。测试覆盖超500个场景，发现智能体常陷入循环或操作错误，关键问题包括任务分解失效、上下文理解偏差及指令遵循不稳定。研究表明，当前技术在需要多步骤推理的实际应用中仍存在显著缺陷。

智能体大佬观点

02:02

Yuchen Jin@Yuchenj_UW

一切都是技能-md问题。

大佬观点推理

02:00

宝玉@dotey

精选75

Google为Gemma 4发布MTP草稿模型，推理速度最高提升3倍

Google为其开源模型Gemma 4推出MTP drafter（多token预测草稿模型），采用推测解码技术，能在保持输出质量不变的前提下，将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token，再由大模型并行验证，从而显著提高吞吐效率，尤其有利于缓解本地部署时的内存带宽瓶颈。例如，在Apple Silicon上运行26B MoE模型时，批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议，权重已开源，并获主流推理框架支持。

Google开源生态推理模型发布

关联讨论 3 条

推荐理由：Gemma 4 的 MTP drafter 不是噱头，在 Apple Silicon 上实测能翻倍，且完全无损，本地跑开源模型的可以直接上，权重和框架都备好了。

01:57

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

提醒一下，OpenAI *和* Anthropic 都认为我们只剩下0-2年时间几家公司正加速将人类推入黑洞，只为看看会发生什么

AnthropicOpenAI安全/对齐

01:27

SemiAnalysis@SemiAnalysis_

Cerebras公司的口号应该是："无需分割，皆是奇点"

大佬观点部署/工程

00:58

Peter Steinberger 🦞@steipete

我让Molty审查我的PR，它创作了一首歌。https：//github.com/openclaw/openclaw/pull/77205

教程/实践编码

00:57

宝玉@dotey

精选77

开源幻灯片框架open-slide支持AI智能生成

open-slide 这个开源的 Slides 项目不错，可以通过 Agent + Skills 制作 Slides，然后还有一个 Web 程序可以编辑生成好的 Slides。并且可以支持动画，以及网页直接播放 slides。期待完善： - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide

智能体GitHub开源/仓库

推荐理由：让 agent 直接生成可编辑的 slides，npx 一行命令就能跑，还支持动画和网页播放，是产品人和开发者的提效刚需小工具，宝玉推荐的质量一般不差。

00:57

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

死互联网理论更新：十分之四的播客由AI生成回顾： 1）互联网上大多数文章由AI撰写… 2）十大YouTube频道中的四个… 3）十分之四的Facebook帖子… 4）向新YouTube用户展示的视频中五分之一… 5） Twitch上订阅数第一的主播是AI… 6） Deezer上44%的歌曲… 7）三分之一的网站… 人类正在网络上被迅速驱向灭绝

其他现象/趋势

00:57

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

不，说真的，你不能再相信截图了

图像生成安全/对齐

5月5日

23:57

Peter Steinberger 🦞@steipete

那可真是不少token。

其他

23:56

宝玉@dotey

Boris Cherny：编程范式转向管理AI Agent，通才时代来临

Anthropic的Claude Code项目负责人Boris Cherny指出，编程正从手动编写转向管理AI Agent。他本人2026年未手写代码，日常工作转为合并AI生成的PR，并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河，使编程像识字一样普及，未来跨学科通才将激增，因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。

智能体Anthropic大佬观点编码

关联讨论 3 条

23:56

凡人小北@frxiaobei

AI研发团队长这样： codex + figma = 产品 codex + github = 开发 codex + compute = 测试 codex + cloudflare（wrangler / cf cli / code mode）= 运维最后一组目前做得最好。

智能体OpenAI大佬观点部署/工程

23:29

Claude@claudeai

精选65

金融服务新功能：现成的Claude智能体模板，可用于构建推介方案、执行估值审核、月末结账等任务。可将它们作为插件安装到Cowork和Claude Code中，或使用我们的操作指南在生产环境中以托管智能体形式运行。

智能体Anthropic产品更新

关联讨论 4 条

推荐理由：金融行业的 Claude 用户有福了，官方一口气放出了投行 pitch、估值审查、月末结账等现成 agent 模板，装成插件就能跑。

23:27

Ethan Mollick@emollick

除了CAISI评估外，如果NIST能作为独立评估者对AI能力进行公开测试将会很有帮助--尽管这些显然不应是预发布测试，且可以在模型公开后进行。独立测试很重要且成本越来越高。

大佬观点政策/监管

23:27

Ethan Mollick@emollick

在"AI会取代医生吗？"的辩论中，被忽略的一点是医生（以及律师、心理学家和银行家）都拥有投票权、构成政党的捐助基础，并且与社区有深厚的联系。无论AI能做什么，政府将在很大程度上决定允许AI做什么。

大佬观点现象/趋势

23:25

elvis@omarsar0

智能体性能核心：将并行推理与审议内化为可训练技能

研究指出，驱动智能体性能的关键并非外部编排框架，而是一项核心内在技能：并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程，并通过强化学习与价值回归（RLVR）将其训练为可学习的模型内在能力。实验表明，该方法能显著提升模型性能：例如，GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%；R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明，当此类核心技能能被内化至模型中时，框架优势将转化为模型自身优势，长远来看，模型应原生具备此类能力。

智能体推理论文/研究

23:25

elvis@omarsar0

微软研究团队发现，导致AI智能体在长视野任务中失败的核心瓶颈是任务视野长度，而非模型容量。随着目标距离增加，探索空间组合爆炸与信用分配模糊化使模型失效。解决之道并非增加算力，而是通过"视野缩减"：利用宏动作重新参数化动作空间，将多个低级决策压缩为一个高级动作。该方法能立即稳定训练，并使模型在训练时使用缩减视野，在推理时却能泛化到更长的原始视野，实现"视野泛化"。这一发现挑战了将长视野问题简单归因于模型能力的普遍观点。

智能体Microsoft论文/研究

23:25

Deedy@deedydas

SWE-Bench 的创建者刚刚发布了一个非常简单的新基准测试，所有 LLM 都得 0 分。 ProgramBench 提出的问题是：模型能否在没有互联网的情况下从零开始重建真实可执行程序（ffmpeg、SQLite、ripgrep）？我们在模型质量上还远未饱和。

推理编码评测/基准

23:14

Berryxia.AI@berryxia

PageIndex颠覆传统RAG，以推理优先实现范式转变

PageIndex提出一种全新的RAG方法，摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引，让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率，超越了所有传统向量RAG方案，并且完全开源。这标志着一个范式级的转变：从“检索优先”转向“推理优先”，核心思路是让LLM先理解整体文档结构再回答问题，而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理

23:14

Berryxia.AI@berryxia

Unsloth打通本地开源模型运行Claude Code工作流

Unsloth发布指南，演示如何利用Gemma 4和Qwen3.6的GGUF模型，在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动，支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境，使得开发者能以近乎零成本在本地享受顶级交互体验，标志着开源模型开始无缝接管复杂的AI智能体工作流。

智能体MCP/工具教程/实践编码

23:14

Berryxia.AI@berryxia

AI编程工具竞争白热化：下载量背后的留存战

OpenAI Codex的npm周下载量达4600万，远超Claude Code的49.1万，但社区指出对比存在偏差。Claude Code数月前已弃用npm安装方式，而Codex的巨大下载量可能包含大量自动化流水线拉取，未必反映真实使用。Sam Altman也回应数据可能不准确。竞争核心已从能力比拼转向商业化阶段，关键并非安装量，而是工具的实际留存率和日活跃度。Codex凭借生态绑定获得分发优势，Claude Code则以体验吸引高忠诚度用户，胜负取决于产品黏性。

AnthropicOpenAI现象/趋势编码

23:03

Runway：News（网页）

精选55

60倍速冷启动：将同级GPU视为权重服务器

Runway平台团队开发的NCCLBack系统，通过P2P权重传输将模型冷启动时间从数分钟缩短至数秒。其核心创新在于让新启动的GPU推理节点直接从集群内已加载权重的同级GPU获取模型参数，而非从云存储重复下载。该系统利用GPU互连（如InfiniBand、NVLink）高达200-400 Gbps的带宽，相比传统存储下载的2-10 Gbps实现了数量级提升。通过Redis协调与NCCL广播原语，NCCLBack确保了数据传输的效率和正确性，使得大规模集群部署新模型时，冷启动时间不随节点数量线性增长，基本保持恒定。

推理教程/实践部署/工程

推荐理由：Runway 工程师把 GPU 冷启动从分钟压到秒级，原理是让已加载权重的 GPU 直接「喂」给新同伴，而不是各自从存储下载。做大规模推理部署的团队值得细读。

22:57

Sam Altman@sama

为速率限制而来，为最佳模型而留

OpenAI大佬观点

22:57

Hacker News 热门（buzzing.cc 中文翻译）

AI产品坟场

AI产品坟场网站收录了超过1000款已关闭的AI工具，揭示了该领域产品快速迭代与淘汰的现状。数据显示，这些失败产品的平均寿命仅为347天。该目录按关闭时间倒序排列，提供了产品名称、简介、存活时长与关闭原因，直观反映了AI创业赛道的高风险与高淘汰率。

搜索现象/趋势

22:56

宝玉@dotey

精选73

解决Codex长时间运行任务的关键：清晰目标与文档指导

用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导，而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例，指出需与AI共同制定计划并保存为文档，提供样板文件明确输出格式，再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成，而不是仅靠权限或口头指令。

pinecone：@dotey 您好，现在已成功录入😄，可还有一个问题，我用chatgpt pro给我写的/goal在codex上运行每次不到半小时它就自己结束了,我给chat…

智能体教程/实践编码

关联讨论 1 条

推荐理由：不是官方文档，是宝玉跑了17小时逆向codex app后总结的避坑清单，照着文档和验收标准改一改，能少走很多弯路。