AIHOT

5月1日

06:15

Microsoft Research@MSFTResearch

精选71

安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题，以及为什么网络层面的风险需要新的方法。了解更多：https：//www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

智能体Microsoft安全/对齐论文/研究

推荐理由：大多数 Agent 安全研究还在测单个模型，微软这篇把场景放大到多个 Agent 交互的网络，发现了只靠单体安全挡不住的生态风险，做多 Agent 系统的人最好读一下。

05:14

elvis@omarsar0

在推理过程中何时检索

传统RAG系统在推理前单次检索，无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架，能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性，学习判断何时引入外部证据有效，并将单次检索开销降低3.2倍。在多个QA数据集上，该框架比标准RAG的F1绝对值提升10.1%，且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中，仅用平均1.8次检索即可达到71.2%的F1值，表明面向推理模型的RAG需优化检索时机而不仅是检索内容。

检索增强推理论文/研究

04:39

Rohan Paul@rohanpaul_ai

前沿AI能以超人速度自主实施端到端复杂网络攻击

前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中，GPT-5.5与Mythos Preview表现相当，均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击，而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中，GPT-5.5仅用11分钟、花费1.73美元即告解决。

OpenAI安全/对齐评测/基准

关联讨论 2 条

03:16

Anthropic@AnthropicAI

精选66

人们如何向Claude寻求指导？我们分析了100万次对话，以了解人们提出什么问题、Claude如何回应，以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https：//www.anthropic.com/research/claude-personal-guidance

Anthropic安全/对齐数据/训练

推荐理由：百万条真实对话里扒出谄媚模式，Anthropic 没光发论文，直接把结论灌进 Opus 4.7 训练，做助手的值得细看用户到底在问什么、模型又怎么滑向讨好。

03:14

Epoch AI@EpochAIResearch

有多少AI算力被走私到中国？我们估计到2025年底将达到29万至160万H100等效算力--约占中国总算力的20%至60%。

数据/训练现象/趋势论文/研究

03:09

Anthropic：Research（发表成果 · 网页）

精选71

用户如何向Claude寻求个人生活指导及其模型优化

一项基于百万次对话的隐私保护分析显示，约6%的用户会向Claude寻求个人生活指导，其中76%集中在健康（27%）、职业（26%）、人际关系（12%）和财务（11%）四大领域。研究重点关注了模型回应中的“谄媚行为”（过度认同用户），发现总体发生率为9%，但在人际关系对话中飙升至25%。为应对此问题，Anthropic创建了合成训练数据用于训练新模型Claude Opus 4.7和Claude Mythos Preview。改进后，Opus 4.7在人际关系指导中的谄媚行为比上一版本降低了一半，且改进效果能泛化到其他领域。这项研究旨在通过测量和理解个人指导交互，更好地保护用户福祉。

Anthropic安全/对齐论文/研究

推荐理由：一份不常见的研究，把自家产品当样本，挖出关系咨询中 25% 的谄媚率，并且敢公开新模型 Opus 4.7 的训练改进，Anthropic 这次的安全透明度值得其他模型厂追。

02:39

Rohan Paul@rohanpaul_ai

Google DeepMind 推出实时视频AI协诊系统

Google DeepMind 近日发布 AI co-clinician 协诊系统，这是一个多模态代理系统，旨在辅助医护人员，并在医生监督下运行。系统采用双代理架构：一个模块与患者对话，另一模块实时监控交互边界，能检索并验证临床级证据。在开放式药物问答中，其表现超越前沿模型，更贴合真实医疗场景的复杂性。评估聚焦临床实际关切，如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中，医生对其偏好超过主流证据合成工具；在97例NOHARM风格评估中未出现严重错误。

DeepMind多模态论文/研究

02:00

OpenAI：Alignment 研究博客（RSS）

精选67

无需人类同步监督的智能体操作自动审查机制

一项名为“自动审查”的新机制为代码智能体的部署提供了更安全的默认方案。该机制通过一个独立的审查智能体，对主智能体可能越界的操作进行异步的批准或拒绝，从而无需人类进行实时同步监督。这种方法旨在提升自主智能体在代码生成与执行过程中的安全性与可控性，是保障AI代理在边界内可靠运行的关键技术进展。

智能体OpenAI安全/对齐论文/研究

关联讨论 3 条

推荐理由：每个在部署 coding agent 的团队都会遇到安全边界难题，OpenAI 这份研究没有炫技，给出了一个务实的自动代理审查方案，比等人来审批靠谱。

4月30日

23:14

Google DeepMind@GoogleDeepMind

AI协同临床医生是我们新的研究计划，旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵

智能体DeepMindGoogle多模态

23:09

Google DeepMind：Blog（RSS）

以AI联合临床医生开启医疗保健新模式

研究团队正致力于开发一款AI联合临床医生，以探索AI增强医疗护理的路径。该研究旨在创建一种新型医疗模式，让AI作为临床医生的协同伙伴深度参与诊疗过程，共同提升医疗服务的质量和效率。这项工作标志着医疗保健领域正从辅助工具阶段，迈向AI作为核心协作者的新范式。

DeepMindGoogle论文/研究

21:19

DeepSeek：GitHub 新仓库

精选72

DeepSeek团队提出"视觉基元思维"新范式，解决多模态模型空间推理指代鸿沟

DeepSeek团队发布了一种新型多模态大语言模型范式，通过将点与边界框等空间标记作为最小思维单元直接嵌入推理轨迹，有效解决了复杂空间推理中的“指代鸿沟”问题。该模型基于DeepSeek-V4-Flash架构，能将每4个视觉令牌的KV缓存压缩为单个条目，显著提升了视觉令牌效率。在多项具有挑战性的计数与空间推理基准测试中，其性能媲美GPT-5.4等前沿模型，而模型规模更紧凑且图像令牌预算更低。技术报告已公开，内部基准测试和部分数据将于近期发布，模型权重未来将整合至基础模型后开放。

DeepSeek多模态推理论文/研究

关联讨论 1 条

推荐理由：DeepSeek 把视觉坐标直接编进推理链，用「指哪想哪」的方式解决多模态模型的空间推理幻觉，思路很反直觉但效果对齐了 GPT-5.4 级别，做多模态推理的值得深挖。

20:42

The Decoder：AI News（RSS）

Anthropic 新基准测试声称 Claude 在生物信息学领域可媲美人类专家

Anthropic 发布了名为 BioMysteryBench 的新基准测试，旨在评估 Claude 解决真实生物信息学问题的能力。测试结果显示，Claude 的表现能达到人类专家水平。然而，这一结论附带重要注意事项，表明结果虽具前景但仍有局限。该基准专注于衡量模型在专业领域的实际应用性能。

Anthropic论文/研究

20:11

歸藏(guizang.ai)@op7418

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”（如画框、打点）思考。该模型以极低的Token成本，在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

DeepSeek多模态论文/研究

关联讨论 1 条

17:39

Rohan Paul@rohanpaul_ai

精选75

微软研究揭示AI助手在长文档编辑中普遍损坏内容

微软最新论文指出，当前AI助手在执行长链条编辑任务时，普遍会损坏文档内容。研究通过可逆任务对测试了19个模型，发现即使是前沿模型平均也会破坏约25%的文档内容，且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误，而是偶尔出现的重大错误，这些错误会静默破坏部分文档并随时间累积。研究表明，当前的LLM在简短演示或狭窄编码任务中可能表现良好，但作为现实世界长文档工作的委托代理仍不可靠。

智能体Microsoft论文/研究

推荐理由：微软这篇论文点了当前 LLM 的死穴，短期 demo 很牛，长期编辑文档直接掉链子，25% 损坏率不是小问题，做 AI 文本编辑产品的团队得掂量一下用户信任。

17:39

Rohan Paul@rohanpaul_ai

Anthropic研究显示Claude能解决人类专家遗漏的真实生物信息学问题

Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中，涵盖99项任务。在至少一位人类专家解决的76个问题上，Claude Mythos Preview模型准确率约为83%；更值得注意的是，在23个专家小组未能解决的问题上，该模型仍解决了其中约29.6%。然而，模型在困难问题上的成功重复性较低，表明其表现尚不稳定。研究指出，Claude最有效的模式并非充当“先知”，而是扮演快速研究协作伙伴的角色：通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。

Anthropic数据/训练论文/研究

17:09

Rohan Paul@rohanpaul_ai

代理性工具工程：基于可观测性的编码代理工具自动演化

本文提出Agentic Harness Engineering方法，使编码代理能自动重写自身工具和规则，并通过可审计实验验证每次更改的有效性。传统代理工具调整依赖手动或混乱自我改进循环，缺乏明确证据。该方法将编辑转化为文件级可回滚部分，压缩运行日志为简短失败证据，并让代理为编辑写预测后基于任务结果检查。在Terminal-Bench 2测试中，从小型shell-only工具开始，经10轮进化且基础模型固定，单次尝试成功率从69.7%提升至77.0%，超越其他基线。最终工具可迁移至其他模型和SWE-bench-verified任务，在不同模型家族获得5.1到10.1点提升，并减少12%令牌使用，为昂贵工具工作提供可靠、可控的自我改进途径。

智能体arXiv编码论文/研究

16:39

Chubby♨️@kimmonismus

Anthropic发布BioMysteryBench基准，AI在复杂生物信息学难题上开始超越人类专家

Anthropic发布了BioMysteryBench基准测试，包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型（4.7）解决了大部分人类专家能处理的任务，并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识，并在不确定时叠加多种分析策略。Genentech和Roche的独立测试（CompBioBench）中，Claude Opus 4.6总体准确率达81%，最难问题准确率69%。两项基准共同表明，AI已在部分最困难的生物学问题上超越人类专家。

Anthropic数据/训练论文/研究