4月15日
08:00
HuggingFace Daily Papers(社区热门论文)
DiPO:面向细粒度探索-利用权衡的解耦困惑度策略优化

针对RLVR训练中极端困难与简单样本的探索-利用困境,研究团队提出DiPO方法,通过困惑度空间解耦策略将样本划分为高困惑度探索子空间与低困惑度利用子空间,精准挖掘需精细权衡的样本,并设计双向奖励分配机制实现困惑度引导的稳定策略优化。实验表明,该方法在数学推理和函数调用任务中表现优异,有效增强了大语言模型的推理能力。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
AccelOpt:面向 AI 加速器内核优化的自我改进型 LLM 智能体系统

研究团队推出 AccelOpt,一种能自主优化 AI 加速器内核的自我改进型 LLM 智能体系统。该系统通过迭代生成和优化记忆库积累经验,无需硬件专家知识即可提升内核性能。在针对 AWS Trainium 构建的 NKIBench 基准测试中,AccelOpt 将 Trainium 1 和 Trainium 2 的平均峰值吞吐量分别从 49% 和 45% 提升至 61% 和 59%。该系统采用开源模型即可达到与 Claude Sonnet 4 相当的优化效果,成本却降低 26 倍。

智能体论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
基于价值梯度流的强化学习

针对行为正则化强化学习中现有方法难以扩展至大型生成模型或过于保守的问题,研究者提出价值梯度流(VGF)新范式。VGF将问题转化为最优传输问题,通过离散梯度流求解,利用价值梯度引导参考分布粒子,隐式实现正则化。该方法无需显式策略参数化,支持通过调整传输预算实现自适应测试时扩展。实验显示,VGF在D4RL、OGBench离线RL基准及LLM RL任务上均达到SOTA性能,显著优于先前方法。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
三相Transformer

Three-Phase Transformer(3PT)将隐藏向量划分为N个循环通道,采用每通道RMSNorm、Givens旋转及Gabriel's horn位置编码与RoPE正交组合。在123M参数的WikiText-103上,困惑度降低7.20%,仅增1,536参数(0.00124%),收敛提速1.93倍。N作为参数共享旋钮具有规模适应性:5.5M时N=1最优,123M时N=3与N=1相当。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
OneHOI:统一人-物交互生成与编辑

本文提出OneHOI,一个统一人-物交互(HOI)生成与编辑的扩散Transformer框架,将两项任务整合为基于共享结构化交互表示的条件去噪过程。核心R-DiT通过角色与实例感知HOI token、空间Action Grounding、结构化HOI注意力及HOI RoPE机制,建模动词介导关系并解耦多交互场景。基于HOI-Edit-44K等数据集联合训练,支持布局引导、任意掩码及混合条件控制,在生成与编辑任务上均达SOTA性能。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
C2:基于二元偏好的可扩展评分标准增强奖励建模

针对传统评分标准增强奖励建模依赖昂贵人工标注且易受低质标准误导的问题,本文提出C2(Cooperative yet Critical)框架。该框架通过让奖励模型与仅基于二元偏好训练的标准生成器进行批判性协作,合成有益与误导性标准对比样本训练生成器,并由验证器筛选有效标准。实验表明,C2在RM-Bench上提升6.5分,在AlpacaEval 2.0上提升长度控制胜率6.0分,使8B模型性能媲美使用4倍大模型生成标准的表现,实现了可扩展的可靠奖励建模。

arXiv数据/训练论文/研究
05:27
Hacker News 热门(buzzing.cc 中文翻译)
多代理软件开发是一个分布式系统问题

多代理软件开发本质上是一个分布式系统问题。技术博客 kirancodes.me 提出这一核心观点,将多代理协作的复杂性类比为分布式系统的经典挑战,涉及代理间协调、状态一致性和通信可靠性等议题。该视角转换有助于开发者借鉴成熟的分布式系统理论来构建更稳健的多代理应用。文章在 Hacker News 获得 100 点热度。

智能体现象/趋势部署/工程
05:00
Nathan Lambert:Interconnects(RSS)
近期构建项目:ATOM Report、后训练课程、新书完稿及持续研究

作者汇总了近期推进的四大核心项目:发布 ATOM Report、开发后训练课程(post-training course)、完成技术书籍撰写,以及推进 ongoing research。这些工作覆盖行业研究、教育培训、知识沉淀与前沿探索,呈现从理论总结到实践落地的完整技术输出链条。目前各项目均已进入收尾或持续深化阶段,标志着阶段性成果的集中交付。

大佬观点数据/训练
04:11
OpenAI:官网动态(RSS · 排除企业/客户案例)
面向下一代网络防御的可信访问

OpenAI 扩展 Trusted Access for Cyber 计划,向经过审查的网络防御者推出 GPT-5.4-Cyber 模型,并在 AI 网络安全能力持续进阶的背景下强化安全保障机制。该举措旨在为下一代网络防御提供可信的 AI 访问渠道,确保先进 AI 技术被负责任地应用于防御场景,在提升防御能力的同时严格管控潜在风险。

OpenAI产品更新
02:57
Hacker News 热门(buzzing.cc 中文翻译)
克劳德会开飞机吗?

提供的正文内容仅包含文章标题"Can Claude Fly a Plane?"、来源链接及发布元数据(2026年4月14日发布,获100 HN Points),未包含具体文章正文。因此无法提取关于Claude AI是否具备飞行操作能力、具体测试场景、性能数据或关键结论等详细信息以撰写符合要求的摘要。

智能体Anthropic推理评测/基准
02:17
GitHub Blog
破解AI智能体:通过GitHub Secure Code Game培养agentic AI安全技能

GitHub Secure Code Game是一款免费开源的安全训练游戏,设置五个渐进式挑战教授开发者发现和利用真实世界的agentic AI漏洞。目前已有超过10,000名开发者使用该游戏磨练安全技能,以提升对智能体AI系统的安全防护能力。

智能体GitHub教程/实践
02:07
The Decoder:AI News(RSS)
Google Chrome 推出"Skills"功能,支持一键保存和复用 AI 提示词

Google 为 Chrome 浏览器新增名为"Skills"的功能,允许用户将常用 AI 提示词保存为可一键调用的可复用工具。用户无需重复输入相同指令,只需预先保存即可在任意网站快速应用。Google 同时提供针对日常任务的预设技能库,帮助用户简化操作流程,提升浏览效率。

智能体Google产品更新
01:57
Hacker News 热门(buzzing.cc 中文翻译)
数学领域的AI革命已经到来

Quanta Magazine近日发布报道,宣告数学领域的人工智能革命已经到来。文章指出AI技术正从根本上改变数学家的研究方式,推动该学科进入新的发展阶段。该报道在技术社区Hacker News上获得100点关注,反映出科技界对AI与基础科学交叉突破的高度兴趣。

推理论文/研究
01:27
Hacker News 热门(buzzing.cc 中文翻译)
Ask HN: 我因"武器化机器人"的问题辞职,并创办了自己的公司

一名科技从业者因伦理立场拒绝参与武器化机器人研发而从原公司辞职,随后创立了自己的新企业。该帖于4月14日发布在Hacker News平台,迅速获得100点热度,引发业界对AI军事化应用与工程师职业操守的广泛讨论。作者通过离职创业的方式,明确表达了对自主武器研发的反对态度。

具身智能安全/对齐现象/趋势
00:57
4月14日
23:58
HuggingFace Daily Papers(社区热门论文)
全景成对失真图

本文提出Distortion Graph(DG)任务,将图像对表示为基于区域的结构化拓扑,以图结构编码失真类型、严重程度及质量评分。工作贡献包括区域级数据集PandaSet、多难度基准PandaBench及高效架构Panda。实验表明,当前多模态大语言模型难以处理区域级失真,而基于PandaSet训练或DG提示可有效激发区域级理解能力,为细粒度结构化图像质量评估提供新方向。

arXiv多模态论文/研究
22:29
Anthropic:Newsroom(网页)
Anthropic 长期利益信托任命 Vas Narasimhan 加入董事会

Anthropic 长期利益信托任命 Novartis 首席执行官 Vas Narasimhan 加入董事会。作为医生科学家,Narasimhan 曾在高度监管环境下主导 35 种以上新药的开发审批,擅长将突破性技术安全规模化交付。此次任命后,信托指派董事在董事会中占据多数席位,强化了对公司公共利益使命与财务目标平衡治理的独立监督。

Anthropic行业动态
21:58
HuggingFace Daily Papers(社区热门论文)
学习长期运动嵌入以实现高效运动生成

研究团队提出了一种基于长期运动嵌入的高效运动生成方法,通过从大规模轨迹数据中学习高度压缩的运动表示,实现64倍时间压缩。该方法直接在运动潜空间上操作,而非合成完整视频,效率提升数个数量级。团队训练了条件流匹配模型,支持通过文本提示或空间戳记指定生成目标。实验表明,生成的运动分布在性能上超越了最先进的视频模型和专用任务方法,可生成长时间、真实的运动序列。

arXiv视频论文/研究
21:55
Hacker News 热门(buzzing.cc 中文翻译)
具有内省能力的扩散语言模型

Introspective Diffusion Language Models(内省扩散语言模型)正式发布,该架构在传统扩散模型基础上引入内省机制,支持生成过程中的自我评估与优化。项目技术细节与代码已开源至introspective-diffusion.github.io。该研究成果在Hacker News技术社区获得100点关注度,于2026年4月14日公开。

推理论文/研究
20:11
HuggingFace Daily Papers(社区热门论文)
移动GUI智能体隐私个性化:基于轨迹诱导偏好优化

针对移动GUI智能体忽视用户隐私个性化需求的问题,研究者提出轨迹诱导偏好优化框架TIPO。该方法通过偏好强度加权突出关键隐私步骤,并采用填充门控抑制对齐噪声,有效解决了隐私优先与效用优先用户间轨迹结构异质性导致的优化不稳定难题。在Privacy Preference Dataset上的测试显示,TIPO在保持任务可执行性的同时,实现65.60%成功率、46.22合规性得分和66.67%隐私区分度,显著优于现有优化方法。相关代码与数据集已开源。

智能体多模态论文/研究
20:11
HuggingFace Daily Papers(社区热门论文)
过去并未过去:记忆增强的动态奖励塑形

针对大语言模型强化学习中采样多样性降低、策略重复生成相似错误的问题,本文提出MEDS(记忆增强动态奖励塑形)框架。该方法通过存储中间模型表示捕捉历史rollout特征,利用密度聚类识别高频错误模式,并对重复错误施加更重惩罚,从而在鼓励探索的同时减少重复犯错。在五个数据集和三个基础模型上的实验表明,MEDS较基线平均性能显著提升,pass@1和pass@128最高分别提升4.13和4.37点,有效增强了采样多样性。

arXiv数据/训练论文/研究
20:00
Cursor Blog
精选62
多智能体系统将GPU内核性能提升38%

我们与NVIDIA合作,利用自主运行的多智能体系统,在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别,实现了38%的几何平均速度提升,其中63%的问题超越基线,19%实现超2倍优化。这些内核直接影响AI训练与推理效率,传统上需资深工程师耗时数月乃至数年的优化工作,该系统在数周内即自主完成,并能探索更广阔解决方案空间,突破了人工逐项优化的限制。

智能体现象/趋势编码部署/工程

推荐理由:Cursor 把自家多 Agent 系统拉去优化 CUDA 内核,38% 的 geomean 提速不算炸裂,但真正值得看的是它证明了 Agent 可以在无人干预下跑三周啃硬骨头,这对做 Agent 产品的人是个强信号。
19:11
HuggingFace Daily Papers(社区热门论文)
SHARE:面向研究与教育的社会科学与人文 AI

SHARE 系列是首个专为社会科学与人文学科(SSH)全量预训练的因果语言模型,在 SSH Cloze 基准测试中,其文本建模性能接近使用 100 倍 token 的通用模型 Phi-4。同期发布的 MIRROR 用户界面采用零文本生成设计,支持 SSH 学者批判性审阅文本输入,在不违背学科原则与规范的前提下释放 AI 能力。

arXiv数据/训练论文/研究
18:32
Hacker News 热门(buzzing.cc 中文翻译)
一部关于AI的编程恐怖故事

一篇关于AI辅助编程风险的技术文章在Hacker News获得102个赞。文章以"恐怖故事"形式揭示了"Vibe Coding"(凭感觉编程)的潜在危害——开发者过度依赖AI生成代码而忽视深层理解,导致技术债务累积和代码可维护性急剧下降。作者通过实际案例警示,盲目信任AI编程工具可能引发严重的工程质量问题与隐性风险。

教程/实践编码
17:33
Google Blog:AI(RSS)
Google 于华盛顿举办 AI for the Economy Forum 汇聚各界人士

Google 在华盛顿特区举办 AI for the Economy Forum,汇聚各界人士共同探讨人工智能与经济发展的关键议题。该论坛旨在搭建多方对话平台,促进关于 AI 技术如何驱动经济增长、重塑劳动力市场及推动产业创新的深度交流,助力构建包容且可持续的 AI 经济生态,体现科技巨头在推动负责任人工智能发展中的积极作用。

Google行业动态
16:38
The Decoder:AI News(RSS)
OpenAI 收购 AI 金融初创公司 Hiro,后者开发了"个人 AI CFO"

OpenAI 已收购 AI 金融初创公司 Hiro 的幕后团队,后者曾开发被称为"个人 AI CFO"的 AI 金融服务。根据公告,Hiro 的现有服务将正式关停,所有用户数据也将被彻底删除。目前交易的具体金额及条款尚未披露,Hiro 团队加入 OpenAI 后的具体业务方向也未公布。

智能体OpenAI行业动态
14:31
Claude Code:GitHub Releases(RSS)
v2.1.107 版本发布

v2.1.107 版本已发布,主要优化了长时间操作场景下的用户反馈体验。新版本改进了思考提示(thinking hints)的显示机制,使其在系统执行冗长运算过程中显著提前出现。用户现在能够更快获知当前处理状态与思维进度,有效减少等待过程中的不确定性,提升交互透明度与操作可控感。

智能体Anthropic产品更新编码
08:00
HuggingFace Daily Papers(社区热门论文)
49
平衡聚合:理解并修正GRPO中的聚合偏差

在GRPO风格强化学习中,策略梯度项的聚合方式(序列聚合与词元聚合)存在不同优化偏差:词元聚合导致符号与长度耦合,序列聚合则因序列级等权重而隐式削弱长响应。为此,本研究提出平衡聚合方法,分别在正负样本子集内计算词元级均值,再以序列计数权重组合。在Qwen2.5-Math-7B和Qwen3-1.7B模型上的实验表明,该方法在多个推理与代码生成基准上能持续提升训练稳定性与最终性能。分析进一步揭示,响应长度变异及正负样本长度差是决定聚合方法有效性的关键因素。

推理数据/训练论文/研究
08:00
Tomer Tunguz 博客(VC 分析)
主动式安全智能系统

前Amazon GuardDuty负责人Shachar Hirshberg与Abnormal Security前AI负责人Dan Shiebler创立Artemis,推出新一代安全智能平台以应对AI时代的自主化攻击。该平台通过语义理解、智能体检测和闭环学习三大技术,将传统SIEM升级为具备自主推理能力的安全系统。Artemis已在数月内部署至十余家大型企业,每小时处理超10亿起安全事件,并完成A轮融资。

智能体行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
AgentSPEX:一种智能体规范与执行语言

AgentSPEX 是一种 LLM 智能体规范与执行语言,通过显式控制流和模块化结构解决现有框架与 Python 紧耦合、难以维护的问题。系统支持类型化步骤、分支循环、并行执行和子模块复用,配备可视化编辑器及可定制执行环境(含沙盒、检查点与日志功能)。经 7 项基准测试验证,用户研究证实其工作流编写范式比主流框架更具可解释性和易用性,同时提供深度研究与科学研究即用型智能体。

智能体编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
Forge-UGC:通用图编译器的FX优化与寄存器图引擎

Forge-UGC是面向异构加速器(如Intel NPU)的transformer四阶段编译器,通过torch.export捕获ATen图,经六种优化pass削减节点14.2%-21.9%,并采用线性扫描缓冲区分配与设备亲和性调度,使峰值缓冲区减少30%-48%、NPU-CPU切换降低42%-65%。在125M至8B参数模型测试中,较OpenVINO等编译速度提升6.9-9.2倍,推理延迟降低18.2%-35.7%,能耗减少30.2%-40.9%,且保持数值精度(logit差异<2.1e-5)。

arXiv端侧论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
具体性驱动的对比负样本挖掘用于组合理解

视觉-语言模型在组合推理中常受词序和属性绑定脆弱性困扰,源于对比预训练中缺乏区分细微语义变化的信息样本。本研究建立词汇具体性作为负样本有效性的决定因素,提出ConcretePlant方法系统操作感知概念,通过修改高具体性术语产生显著结构差异。针对InfoNCE梯度不平衡问题,提出Cement损失函数,采用基于边界的方法关联心理语言学分数与样本难度,动态校准惩罚强度。集成框架Slipform在组合评估基准、跨模态检索及线性探测任务上均达到最先进准确率。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
RoboLab:用于任务通用策略分析的高保真仿真基准

RoboLab 团队推出高保真仿真基准框架 RoboLab 及 RoboLab-120 测试集,以解决现有基准因训练评估域重叠导致的性能饱和与泛化测试不足。该基准包含 120 个跨视觉、程序、关系三大能力轴的任务,设三个难度级别,支持人工与 LLM 生成场景。通过量化真实策略在受控扰动下的性能与敏感性,RoboLab 证实高保真仿真可代理真实世界表现,并暴露当前最先进模型的显著性能差距。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
以自监督引导增强视觉指令微调

多模态大语言模型在视觉中心任务中常因指令微调时视觉信息利用不足而表现欠佳。研究团队提出一种轻量级方法,将旋转预测、颜色匹配等经典自监督前置任务重构为图像-指令-回复三元组,无需人工标注或架构修改即可增强视觉指令微调。实验表明,仅在训练数据中注入3-10%的此类基于视觉的指令,就能在多个模型和基准测试上持续提升细粒度视觉推理性能。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
迈向虚拟细胞的自主机制推理

研究团队提出VCR-Agent多智能体框架,将生物推理形式化为机制动作图以实现可验证的自主推理。该框架整合生物学知识检索与验证过滤机制,并基于Tahoe-100M图谱发布VC-TRACES数据集,提供经过验证的机制解释。实验表明,利用该数据集训练可显著提升事实准确性,并为基因表达预测任务提供更有效的监督信号。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
KV Packet:面向 LLM 的免重新计算上下文无关 KV 缓存方案

研究团队提出 KV Packet 框架,通过轻量级可训练软 token 适配器将缓存文档封装为不可变"数据包",实现 KV 缓存的免重新计算上下文无关重用。该方法基于自监督蒸馏训练弥合上下文不连续性,在 Llama-3.1 和 Qwen2.5 上的实验表明,其计算开销(FLOPs)接近零,首 token 生成时间(TTFT)低于 CacheBlend、EPIC 等部分重新计算基线,同时 F1 分数与完全重新计算方案持平。

arXiv论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
ROSE:一种面向 NL2SQL 的以意图为中心的评估指标

针对 NL2SQL 领域传统执行准确率(EX)指标对语法敏感、易受错误 ground-truth 干扰等问题,研究者推出以意图为中心的评估指标 ROSE。该指标采用对抗性 Prover-Refuter 级联架构,通过 SQL Prover 独立验证语义正确性,并由 Adversarial Refuter 利用 ground-truth 进行对抗式修正。在专家对齐的 ROSE-VEC 验证集上,ROSE 与人工专家的一致性比次优指标高出近 24%(Cohen's Kappa)。团队还基于该指标重新评估了 19 种 NL2SQL 方法,并开源了 ROSE 及验证集。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
语言模型智能体的探索与利用错误可被量化测量

研究人员构建了受具身AI场景启发的可控测试环境,包含部分可观察的2D网格地图与未知任务DAG,并设计策略无关的评估指标,实现了对语言模型智能体探索与利用错误的量化测量。评估显示,当前前沿模型在该任务上表现挣扎且呈现不同失败模式,而推理模型展现出更强的解决能力。研究还发现,通过最小化的工程调整即可显著提升智能体的探索与利用表现。相关代码已开源发布。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
InfiniteScienceGym:无限程序生成的科学分析基准

针对传统科学基准存在的发表偏倚、标签噪声及大规模存储需求,研究团队提出InfiniteScienceGym——一个程序生成的科学分析测试平台。该平台通过确定性算法从种子生成包含真实目录结构、文件与表格数据的自包含仓库,并配备带精确标准答案的可验证问答任务。对主流模型的评估显示,当前无模型整体准确率超过45%,识别不可回答问题仍是主要能力短板,而更强的模型倾向于更有效地使用工具而非单纯增加token消耗。

智能体arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
Grid2Matrix:揭示视觉语言模型中的数字失认症

研究团队提出Grid2Matrix(G2M)基准,通过颜色网格转矩阵任务评估视觉语言模型(VLMs)的细粒度视觉感知。研究发现VLMs在零样本端到端评估中呈现急剧早期崩溃,即使小网格也会完全失败。探测显示视觉编码器保留了充足网格信息,但最终语言输出存在显著损失,这种"可恢复特征"与"语言表达"间的鸿沟被定义为"数字失认症"。错误模式与网格单元和视觉补丁边界重叠密切相关,且模型扩展等策略无法彻底消除该缺陷。

多模态论文/研究