AIHOT

4月30日

08:00

Apple Machine Learning Research（RSS）

精选66

研究团队提出了基于标准化流的视频生成模型STARFlow-V，旨在应对视频生成领域长期由扩散模型主导的局面。该模型具备端到端学习、鲁棒的因果预测和原生似然估计等优势，能够直接处理连续数据并建模复杂的时空动态。这一工作标志着标准化流在图像生成取得进展后，首次被系统性地扩展至计算成本更高、时空结构更复杂的视频生成任务中，为生成式模型的设计提供了新的技术路径。

论文/研究

推荐理由：扩散模型几乎垄断视频生成，Apple 这篇用正规化流做视频却是清奇思路，端到端学习和因果预测的优势值得研究员细看。

08:00

OpenRouter：Announcements（RSS）

April Release Spotlight

本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型，包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强，特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%，同时上下文窗口扩展至百万token级别。开发者工具方面，新的智能体SDK支持更复杂的任务编排，而重排序模型显著提升了检索精度。

智能体产品更新多模态模型发布

07:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

为智能时代构建计算基础设施：OpenAI 扩展 Stargate 以支撑 AGI 发展

OpenAI 正在扩展其代号为“Stargate”的计算基础设施项目，旨在为通用人工智能（AGI）的研发提供核心算力支持。该项目通过增加新的数据中心容量，以应对全球范围内持续增长的 AI 算力需求。这一举措标志着 OpenAI 在构建下一代大规模计算集群方面进入实质性推进阶段，旨在为未来 AGI 系统所需的巨大计算资源打下硬件基础。

OpenAI行业动态部署/工程

推荐理由：这不是模型发布，但算力扩张才是 AGI 竞赛的真正底层，数据中心扩容直接关系到下一代模型能不能训出来，做基础设施的可以盯一下供应链。

06:20

Google Research：Blog（网页）

精选57

谷歌研究团队应用实证研究辅助工具的四个领域

自去年秋季推出实证研究辅助（ERA）工具以来，谷歌研究团队已将其应用于多个科学领域以解决实际问题。在流行病学中，它助力流感与新冠预测；在宇宙学里，协助分析星系数据以探究暗能量；在大气监测方面，提升了二氧化碳排放的追踪精度；在神经科学领域，则用于解析大脑活动数据。这些实践表明，ERA能帮助科学家生成专家级的实证软件，其成果超越了黑箱模型，可发现兼具可解释性与机制准确性的解决方案，从而有效加速科学发现进程。

智能体Google现象/趋势

推荐理由：Google 把自家 ERA 工具在流行病学、宇宙学、气候监测、神经科学四个方向的实战案例摊开讲，虽然不是新模型发布，但对做 AI for Science 的人来说，这是一份难得的「AI 科研助手到底能干嘛」的全景参考。

05:13

Anthropic：Research（发表成果 · 网页）

精选66

使用BioMysteryBench评估Claude的生物信息学研究能力

Anthropic团队开发了BioMysteryBench生物信息学基准测试，用于评估Claude在分析真实数据集、解决开放式研究问题上的能力。测试发现，Claude的生物学科学能力正快速迭代，当前模型表现已与人类专家相当，最新模型甚至解决了部分专家小组未能破解的问题，且有时策略迥异。该基准旨在应对科学评估的固有挑战，如生物学研究中存在多种合理的“正确”方法，以及研究决策的高度主观性。

Anthropic论文/研究评测/基准

推荐理由：Anthropic 用 99 道真实生物信息学题测 Claude，发现最新模型在人类解不出的难题上也能答对 30%，而且解题策略和人类完全不同。做生物信息的同行值得看看这个 benchmark 的设计思路，比刷分数字有意思得多。

02:43

LMSYS：Blog（Chatbot Arena 团队）

精选74

秒级更新万亿参数--大规模分布式强化学习中的点对点权重传输技术

LMSYS团队针对SGLang中的强化学习工作负载，提出了一种基于RDMA的点对点权重更新机制，作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输，将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒，提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余，允许推理服务器更快恢复rollout过程，且兼容所有主流开源模型。

智能体开源生态论文/研究部署/工程

推荐理由：LMSYS 把分布式 RL 训练的权重同步从 NCCL 广播改成 RDMA P2P，1T 参数模型传输快了 7 倍，做大规模 RL infra 的团队该认真看看这个工程方案。

02:41

Claude：Blog（网页）

精选66

企业级部署指南：如何利用Claude Cowork推动全员AI协作

Anthropic发布《企业级Claude Cowork部署指南》，旨在帮助非技术岗位员工规模化应用AI。该指南基于内部团队及Thomson Reuters等客户实践，提供了从试点到全面推广的完整路径。核心内容包括一个五级成熟度模型、试点用例评估方法以及为期六个月的组织级部署路线图。Claude Cowork作为桌面应用，能深度集成本地文件、Slack、Google Drive及浏览器，并结合Claude for Excel/PPT实现跨文档工作流，适用于金融、法律、销售等多行业的生产场景。

智能体Anthropic产品更新

推荐理由：Claude Cowork 把 agent 能力从开发者命令行搬到全公司桌面，配了五级成熟度模型和六个月落地路线图，企业 IT 负责人和产品经理值得拿这份指南当部署参考。

02:36

Cloudflare Blog

精选65

Agents 现可创建 Cloudflare 账户、购买域名并部署

Cloudflare 宣布 AI 代理现可作为独立客户直接使用其服务。代理能够自主创建 Cloudflare 账户、开通付费订阅、注册域名，并立即获取 API 令牌以部署代码。人类用户可保留授权监督权限，但无需手动操作控制台、复制粘贴 API 令牌或输入信用卡信息。这一更新使代理能够以自动化流程完成从账户开设到服务部署的全链路操作。

智能体产品更新部署/工程

推荐理由：Cloudflare 把 AI 代理当成真正客户，从注册到部署一气呵成，这比给个 API 更彻底，做 agent 框架的同学该看一眼。

02:11

Claude：Blog（网页）

精选64

Claude API技能现已集成至CodeRabbit、JetBrains、Resolve AI及Warp

Claude API技能现已扩展集成至CodeRabbit、JetBrains、Resolve AI和Warp四款开发工具中，使开发者能在其常用环境中直接获得生产就绪的Claude API代码支持。该技能能自动捕获API最佳实践细节，如适配的智能体模式、参数变更与提示缓存规则，从而减少错误并简化模型迁移。开发者可在工具内直接指示Claude执行“提高缓存命中率”或“升级至最新Claude模型”等任务。此开源技能会随SDK更新自动同步，帮助团队更快采用新功能，避免因API知识过时导致的生产问题。

AnthropicMCP/工具产品更新编码

推荐理由：Anthropic 把 claude-api skill 从自家 IDE 扩散到 JetBrains、Warp 等主流开发工具，本质是用「内置专家知识」抢开发者心智，做 Claude API 集成的产品人值得看看它覆盖了哪些坑。

01:39

Hugging Face：Blog（RSS）

精选62

AI评估正成为新的算力瓶颈

AI评估成本已突破关键阈值，正重塑其可及性。Holistic Agent Leaderboard花费约4万美元运行了2万多次智能体推演，单次前沿模型测试成本可达2829美元。研究显示，相同任务成本差异可达33倍，脚手架选择是核心成本驱动因素。虽然静态基准可通过压缩技术实现百倍成本缩减，但智能体评估因轨迹长、噪声大而压缩有限。高支出未必带来更好结果：例如在GAIA测试中，2828美元方案准确率28.5%，而1686美元方案反达57.6%。当评估包含模型训练时，成本将完全超越常规API框架。

Hugging Face现象/趋势评测/基准

推荐理由：这篇把分散的评估成本数据拉通了算总账，曾经便宜的评测现在动辄上万美元，独立评估正被价格挤出牌桌，做Agent的人必须意识到排行榜的代价。

01:34

Dwarkesh Patel：Podcast & Blog（RSS）

精选55

Reiner Pope - 大语言模型训练与服务的数学原理

文章揭示了支撑大语言模型（如GPT、Claude、LLaMA）训练与服务的核心数学框架。通过剖析关键方程，可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律，也量化了训练成本与推理效率之间的权衡，为理解当前大语言模型的发展路径提供了底层逻辑。

大佬观点推理数据/训练

推荐理由：Reiner Pope 把训模型背后的数学摊开讲，听完能反推出大厂在做什么，做训练的人不可多得的一课。

01:34

Gary Marcus：The Road to AI We Can Trust（RSS）

关于马斯克诉OpenAI诉讼案的三个观点

马斯克对OpenAI提起诉讼，指控其违背创立时作为非营利组织、致力于开发开放且造福人类的人工智能的初衷。诉讼核心争议点在于OpenAI与微软的紧密合作关系及其技术闭源化的转变。尽管双方立场均存争议，但诉讼确实揭示了OpenAI从开源非营利组织向受微软重大影响的有限营利实体演变的关键矛盾。案件可能影响未来AI治理与商业发展模式。

OpenAI大佬观点行业动态

00:40

Mistral AI：News（网页）

精选76

Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体

Mistral AI推出旗舰模型Mistral Medium 3.5，这是一个128B参数的密集模型，拥有256K上下文窗口，在SWE-Bench Verified上获得77.6%的分数。该模型现作为Vibe和Le Chat的默认引擎，并驱动两项新功能：Vibe远程编程智能体可将编码任务移至云端异步并行执行，用户可通过CLI或Le Chat启动并在完成后接收通知；Le Chat的新工作模式则是一个由该模型驱动的智能体，能处理研究、分析和跨工具操作等多步骤复杂任务。这些更新旨在将开发者从本地线性任务中解放出来，提升工作效率。

智能体开源生态模型发布编码

关联讨论 2 条

推荐理由：Mistral 把 coding agent 从本地搬到云端并行跑，Medium 3.5 是第一个真正为长时任务设计的旗舰合并模型，SWE-Bench 77.6% 加上四卡可自部署，做 coding agent 的团队该认真看看这家的路线了。

00:39

Google Developers Blog（RSS）

精选57

加速AI：通过GCSFS和Rapid Bucket将Google Colossus引入PyTorch

Google Cloud推出了一项高性能集成方案，通过fsspec接口将Rapid Storage直接连接至PyTorch，以消除AI训练瓶颈。该方案利用Google的Colossus架构和双向gRPC流技术，可提供高达15 TiB/s的聚合吞吐量，并显著降低延迟。开发者仅需更新存储桶类型而无需修改代码，即可将总训练时间缩短23%。

Google产品更新部署/工程

推荐理由：Google 把自家 Colossus 存储架构直接接进 PyTorch，号称零代码改动提速 23%，做大规模训练的团队值得评估一下，但对大多数人来说这更像 GCP 的护城河加固。

00:39

Hugging Face：Blog（RSS）

DeepInfra 登陆 Hugging Face 推理服务提供商 🔥

DeepInfra 作为高性能、低成本的推理服务提供商，现已在 Hugging Face 平台正式上线。该服务支持众多开源模型，包括 LLaMA、Mistral 等系列，并提供按需付费的灵活计费模式。其 GPU 实例涵盖 H100、A100 等多种型号，显著降低了 AI 模型部署与调用的门槛，进一步推动了开源人工智能技术的普及与应用。

Hugging Face行业动态部署/工程

00:36

Tomer Tunguz 博客（VC 分析）

精选57

AI推理市场的专业化分化

AI推理市场正快速分化，各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后，NVIDIA数据中心收入三年内增长17倍，凸显市场爆发。分化根本原因在于工作负载差异：图像视频生成需高计算力，长上下文消耗更多内存，边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层；按模态分为文本、图像视频音频；按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型，整个AI推理市场规模预计约1000亿美元，这种专业化趋势正为各细分领域创造领导者机会。

多模态大佬观点推理端侧

推荐理由：Tomer 把推理市场跟数据库市场做类比，碎片化的逻辑讲得很透，做 AI 基础设施的朋友能直接用来梳理自己的赛道，普通人知道这么回事就行。

4月29日

23:40

Claude：Blog（网页）

精选58

智能体时代的产品开发：Claude Managed Agents 如何解放产品经理

Claude产品经理Jess Yan分享了处于测试版的Claude Managed Agents如何改变其工作流程。这套可组合的API能大规模构建和部署云端智能体，使她能在短时间内将想法转化为可运行的原型。她的日常工作由此分流：使用Claude进行开放式探索，然后利用Claude Code基于Managed Agents编写定制智能体来自动化特定任务，如采用分析和舆情监控。这些智能体接管了以往难以规模化的操作性工作，让她能将更多时间投入到与团队和用户的创造性合作中。

智能体AnthropicMCP/工具教程/实践

关联讨论 3 条

推荐理由：Anthropic PM公开用Claude Managed Agents搭建数据分析、舆情监控和演示生成agent的真实流程，对于想要用agent重构产品开发节奏的团队有实际参考价值，但不算爆炸性更新。

23:39

Hugging Face：Blog（RSS）

Granite 4.1 LLMs：构建之道

IBM Granite团队在Hugging Face上发布了Granite 4.1系列大型语言模型的构建细节。该系列模型专注于代码与自然语言任务，采用多阶段训练流程，包括大规模代码数据预训练、多样化指令微调以及强化学习对齐。模型架构基于改进的Transformer解码器，并针对长序列和工具使用进行了优化。新版本在多项基准测试中性能显著提升，特别是在代码生成与数学推理任务上，部分指标超越了同规模的开源模型。团队同时公开了部分训练数据集构建方法与评估框架。

教程/实践数据/训练

关联讨论 1 条

20:00

Cursor Blog

精选75

使用 Cursor SDK 构建可编程智能体

Cursor 正式推出 SDK 公开测试版，开发者仅需几行 TypeScript 代码即可构建和部署智能体。该 SDK 提供与 Cursor 应用相同的运行时、框架及前沿模型（如 GPT-5.5）支持，并允许将智能体部署于本地或 Cursor 云的专用虚拟机。借助其生产级云基础设施，如安全沙箱和持久状态管理，智能体正从个人工具演变为组织的可编程基础设施。许多团队已将其集成至 CI/CD 流水线、工作流自动化及核心产品中。

智能体产品更新编码

推荐理由：Cursor 把自家产线拆出来给外部用，对于想把 AI 代理嵌入 CI/CD 或产品的团队，省掉了自建完整 agent 栈的麻烦，对做自动化编码的开发者是个必看的更新。

20:00

OpenRouter：Announcements（RSS）

精选65

通过 Stripe Projects 命令行创建 OpenRouter 账户

运行 `stripe projects add openrouter/api` 命令，即可直接从命令行创建 OpenRouter 账户、获取 API 密钥并开通 Stripe 计费功能。该操作支持自动化代理执行，实现了账户开通与支付配置的一站式集成。

产品更新部署/工程

推荐理由：OpenRouter 把账户创建搬到了 CLI，你的 agent 也可以直接开号了，这对于需要自动化计费流程的开发者是个便利小更新，但普通用户几乎感受不到变化。

19:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

Intelligence Age 下的网络安全

OpenAI 发布了一份旨在强化 Intelligence Age 网络安全的五点行动计划。该计划的核心是推动 AI 驱动的网络防御民主化，并保护关键基础设施系统。OpenAI 强调，面对日益复杂的网络威胁，必须广泛普及 AI 安全工具，以提升整体防御能力。

OpenAI安全/对齐

推荐理由：网络安全是 AI 军备竞赛的下半场，OpenAI 这份行动框架把威胁模型和方法论都摆出来了，做安全的人可以把它当 checklist。

11:35

Claude Code：GitHub Releases（RSS）

v2.1.123

本次更新修复了一个关键的OAuth身份验证故障。当环境变量`CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS`被设置为1时，系统此前会陷入401错误的重试循环，导致认证失败。此问题现已得到解决，确保了在该特定配置下身份验证流程的正常运行。

Anthropic产品更新编码

11:19

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ling-2.6-1T

inclusionAI 发布了 Ling-2.6-1T 模型，这是一个包含 1 万亿参数的大型语言模型。该模型基于开源与开放科学理念构建，旨在推动人工智能技术的进步与民主化。新模型在多项基准测试中展现出更强的语言理解与生成能力，同时提供了更高效的推理性能。这一发布标志着开源社区在规模化 AI 模型开发上的重要进展，为研究者和开发者提供了可访问的高性能工具。

Hugging Face开源生态模型发布

关联讨论 1 条

09:35

Tomer Tunguz 博客（VC 分析）

精选63

AI销售中的三个核心问题

AI销售策略正从询问软件预算转向三个核心问题：软件总预算、劳动力总预算，以及客户期望三年后两者的比例。这一转变将销售对话提升至战略层面。当前数据显示，销售、支持和工程部门的人力与软件成本比分别为10:1、4:1和最高25:1，高比率意味着巨大的AI替代潜力。新的销售流程分为两步：先切入现有软件预算，再拓展至AI所释放的劳动力预算，最终目标是重新定义企业对成本结构的认知。

智能体大佬观点现象/趋势

推荐理由：Tunguz 用一张劳动力/软件支出比率表把 AI 销售的底层逻辑讲透了，做 ToB SaaS 或 Agent 产品的人看完会重新想自己的定价天花板在哪。

08:57

OpenAI：官网动态（RSS · 排除企业/客户案例）

Our commitment to community safety

OpenAI 通过多层防护机制保障 ChatGPT 的社区安全。具体措施包括内置模型安全护栏、实时监测滥用行为、严格执行使用政策，并与外部安全专家深度合作。这些系统性防护旨在主动识别并拦截有害内容生成，同时持续优化安全策略以应对新型风险。平台强调技术防护与人工审核相结合，致力于在保持 AI 对话能力的同时维护用户安全。

OpenAI安全/对齐

08:00

Apple Machine Learning Research（RSS）

精选57

Adaptive Thinking：大型语言模型知道何时在潜在空间中思考

研究提出了一种名为“自适应思考”的新方法，使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准，当模型对简单问题已有高置信度答案时，会跳过显式推理步骤，直接生成最终答案。实验表明，在保持相同性能水平下，该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量，实现了更高效的计算最优推理。

推理论文/研究

推荐理由：苹果这篇论文用自一致性作为「要不要深度思考」的代理，把推理预算分配从玄学变成了可计算的优化问题，做推理加速的同行值得细读。

08:00

Apple Machine Learning Research（RSS）

精选56

DSO：用于缓解偏见的直接引导优化

研究团队提出DSO方法，旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时，通过单一标量参数直接、实时地控制偏见缓解程度，实现无需重新训练的动态调整。实验表明，DSO能在偏见指标上实现高达90%的改善，同时将性能损失控制在10%以内，有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。

多模态安全/对齐论文/研究

推荐理由：Apple 这篇提出了一个直接操控生成方向的优化方法，把偏见缓解变成了可调节的旋钮，而不是一刀切地牺牲性能，做公平性研究的人可以仔细读一下。

06:35

Claude Code：GitHub Releases（RSS）

版本v2.1.122更新摘要

本次更新主要新增了通过环境变量选择Bedrock服务层级的功能，并支持在/resume搜索框粘贴PR链接以定位创建该PR的原始会话。同时修复了多项关键问题：修正了源会话含时间线回退条目时，/branch命令可能创建失败分支的问题；解决了发送给新版模型的图像被错误调整为2576px（应为2000px上限）的问题；增强了OpenTelemetry日志记录，确保数字属性以数值类型输出；并修复了Vertex AI/Bedrock在生成会话标题等场景下可能返回无效请求错误的问题。此外，还包含对MCP工具显示、CLI命令退出行为等多项细节的优化与修正。

AnthropicMCP/工具产品更新部署/工程

01:11

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选71

OpenAI模型、Codex与托管智能体登陆AWS平台

OpenAI的GPT系列模型、代码生成模型Codex以及托管智能体现已正式上线亚马逊云科技。企业用户可直接在AWS环境中集成并调用这些AI服务，基于自身云基础设施构建安全、可控的定制化人工智能应用。此次合作将OpenAI的前沿模型能力与企业级云环境的安全性和可扩展性相结合，为企业部署生成式AI与自动化智能体提供了新的平台选择。

OpenAI行业动态部署/工程

关联讨论 6 条

推荐理由：OpenAI 终于上了 AWS，这意味着大量被云锁定的企业不用再绕道 API，直接在自家环境里跑 GPT 和 Codex，对做企业级 AI 产品的人来说是个真信号。

00:37

Hugging Face：Blog（RSS）

精选70

介绍 NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态模型

NVIDIA 发布了 Nemotron 3 Nano Omni 模型，这是一个专为处理长上下文多模态任务设计的轻量级模型。该模型能够同时理解并处理文档、音频和视频数据，旨在赋能新一代多模态智能体。其核心变化在于将长上下文能力与多模态理解结合到一个小型化模型中，提升了在复杂跨模态场景下的处理效率与应用灵活性。

多模态模型发布端侧

关联讨论 3 条

推荐理由：NVIDIA 把多模态长上下文塞进 Nano 级别模型，文档、音频、视频 Agent 通吃，做端侧多模态应用的团队值得认真看看这个架构思路。

00:36

Claude：Blog（网页）

精选72

像培训新开发者一样引导Claude Code：来自17年开发的经验教训

华盛顿大学MacCoss实验室的Brendan MacLean将培训新开发者的方法论应用于Claude Code，以管理拥有70万行C#代码、持续开发17年的开源蛋白质分析软件Skyline。他通过创建独立的AI上下文仓库、编写CLAUDE.md引导文件以及设计“技能”模块（如调试技能），为Claude Code建立项目认知。该方法显著提升了开发效率：搁置一年的文件视图面板功能在两周内完成；CSS布局更新从依赖设计师变为不到一天实现。此外，Claude Code还自动化了2000多张教程图片的截图比对和每日测试报告生成，团队现在主要依靠它生成代码和脚本。

AnthropicMCP/工具教程/实践编码

推荐理由：这不是又一篇 Claude Code 安利文，而是一个维护了 17 年 70 万行 C# 代码库的人，把带新人的方法论原封不动搬给了 AI，结果真管用。做 legacy 项目的人应该认真看他的 context 管理和 skill 库设计。

00:06

Google Blog：AI（RSS）

庆祝 Google Translate 20 周年：趣闻、技巧与可尝试的新功能

Google Translate 迎来 20 周年，从 2006 年的一项 AI 实验起步，现已支持近 250 种语言。官方分享了 20 条相关趣闻，并介绍了用户可尝试使用的实用技巧与新功能，以展示其多年来的技术演进与服务扩展。

Google产品更新多模态

4月28日

23:39

Mistral AI：News（网页）

精选68

Mistral AI 发布 Workflows 公开预览版，为企业AI工作流提供编排支持

Mistral AI 正式推出 Workflows 公开预览版，该产品定位为企业AI的编排层，旨在通过提供持久性、可观察性和容错性，帮助AI驱动的工作流从概念验证可靠过渡到生产环境。它集成于Studio平台，允许开发者用Python编写工作流，并可发布至Le Chat供组织成员触发。其核心功能包括持久化执行（支持从断点恢复）、完整的步骤跟踪与审计，以及通过 wait_for_input() 等方法实现人工介入审批。目前已有ASML、ABANCA等企业客户使用其自动化货物放行、文档合规检查等关键业务流程，将原本耗时数小时的人工操作缩短至几分钟。

智能体产品更新部署/工程

推荐理由：Mistral 把 Temporal 的持久执行引擎包装成企业 AI 编排层，解决的是「demo 能跑、上线就挂」这个最痛的落地问题。做企业级 Agent 的团队值得认真看看，尤其是 human-in-the-loop 那个 wait_for_input 一行代码的设计。

23:10

Anthropic：Newsroom（网页）

精选70

Claude创意工作套件

Anthropic推出Claude for Creative Work，这是一套连接器工具，可实现Claude与Blender、Autodesk、Adobe等主流创意软件的直接集成。这些连接器允许Claude访问各平台功能，例如在Adobe系列中调用50多款应用，在Autodesk Fusion中通过对话创建3D模型，或在Blender中通过自然语言操作Python API。创意工作者可利用Claude加速软件学习、编写脚本插件、桥接多工具工作流以及自动化批量处理等重复任务。该系列工具基于MCP标准，并已与多所艺术设计院校合作，旨在推动创意计算教育。

AnthropicMCP/工具产品更新

关联讨论 2 条

推荐理由：Anthropic 把 Claude 塞进 Blender、Adobe、Ableton 这些创意工具里，不是又一个聊天框，而是用 MCP 让 AI 真正操作软件。做设计、做音乐、做 3D 的人第一次有了一个能跨工具干活的 AI 助手，值得试试。

21:38

腾讯混元：Research（API）

Hy3 preview ：混元大模型重建的第一步

19:07

Qwen：Blog Retrieval（API）

精选59

FlashQLA：面向GDN的CP-/Bwd友好型融合线性注意力内核

FlashQLA 发布了一组专为梯度下降网络优化的融合线性注意力内核。新内核在设计上对计算模式和后向传播更加友好，旨在提升训练效率。该技术通过优化内核融合策略，改进了注意力机制的计算性能，是提升大规模模型训练速度的关键底层优化。

数据/训练论文/研究部署/工程

推荐理由：Qwen 团队发了一篇 fused linear attention 内核的工程论文，目标是把 GDN 架构的推理和反向传播都跑快。做底层优化的工程师值得看一眼，普通开发者可以略过。

17:51

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI发布Ling-2.6-flash-int4模型

inclusionAI团队宣布推出Ling-2.6-flash-int4模型，作为其通过开源与开放科学推动人工智能技术进步与普及的重要举措。该版本延续了团队降低AI应用门槛、促进技术民主化的核心使命，以轻量化技术方案进一步优化模型性能与部署效率。

开源/仓库模型发布端侧

12:34

Tomer Tunguz 博客（VC 分析）

精选64

GPU现货价格六周内暴涨114%

根据Ornn Compute Price Index数据，NVIDIA B200 GPU的现货租赁价格在六周内飙升114%，从三月初的2.31美元涨至本周的4.95美元/小时。此次价格暴涨与GPT-5.5等前沿模型发布带来的需求冲击紧密相关，这些模型需要Blackwell架构提供的内存支持。与此同时，B200与上一代H200的价差从0.28美元大幅扩大至1.80美元，不同云服务商之间的报价差距也扩大了一倍以上，反映出市场供应紧张。预计夏季B200价格将维持在5美元以上，云端推理成本持续上升。

现象/趋势行业动态部署/工程

推荐理由：Tomer Tunguz 用 Ornn 真实价格指数拆出 B200 六周涨 114% 的供需逻辑，做 AI infra 选型或算力采购的人该把这张图存下来，夏天 B200 破 5 刀基本板上钉钉。

12:34

Anthropic：Newsroom（网页）

Anthropic 任命澳新总经理并正式开设悉尼办公室

Anthropic 正式任命 Theo Hourmouzis 为澳大利亚和新西兰总经理，并同步开设悉尼办公室。Hourmouzis 拥有超过20年的亚太科技行业领导经验，将负责制定本地战略，推动 Claude 人工智能进入客户核心业务。公司正深化与联邦银行等企业的合作，并与澳大利亚国立大学等研究机构推进 AI for Science 项目。同时，Anthropic 近期与 Canva、Xero 建立了深度平台合作。悉尼办公室是其在亚太地区的最新布局，旨在贴近当地客户与市场。

Anthropic行业动态

12:33

Runway：News（网页）

精选58

无闲置GPU：Runway的研究计算管理

Runway通过采用Kueue作为Kubernetes准入控制器，将GPU利用率提升超过20%，同时保障团队容量。其核心机制是为关键工作预留配额，并设立共享队列借用闲置容量，当配额所有者需要时通过抢占回收资源。该系统运行于昂贵的多租户GPU集群，支持多节点训练的拓扑感知调度和弹性工作负载。具体实现中，团队拥有专用预留队列，而默认队列作为共享机会池，可借用闲置配额运行可中断工作负载。当预留队列需资源时，Kueue基于优先级和运行时间抢占默认队列中的任务，实现资源高效管理。

教程/实践部署/工程

推荐理由：Runway 把 Kueue + Kubernetes 的 GPU 调度实战写成了保姆级工程笔记，利用率翻倍的方案和踩坑细节都有，做大规模训练集群调度的团队可以直接抄作业。