AIHOT

5月5日

08:00

HuggingFace Daily Papers（社区热门论文）

68

唤醒统一多模态理解与生成中的空间智能

JoyAI-Image是一个统一的多模态基础模型，集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构，实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号，增强了模型的几何感知推理与可控视觉合成能力。实验表明，该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环，推动模型向更强的空间智能演进，为下游应用提供了新路径。

图像生成多模态推理论文/研究

07:30

Apple Machine Learning Research（RSS）

精选67

PORTool：基于奖励树和重要性感知的策略优化方法，用于多工具集成推理

研究团队提出PORTool算法，以解决多工具集成推理中仅依靠结果奖励导致的信用分配模糊问题。该方法通过重要性感知策略优化，在结果级监督下强化智能体的工具使用能力，同时实现步骤级奖励分配。PORTool生成奖励树来明确关键决策步骤，从而更精确地引导模型学习有效的工具调用序列，提升复杂任务解决的效率和可靠性。

智能体推理论文/研究

推荐理由：不少 Agent 团队训练时都遇到过奖励信号太稀疏的问题，PORTool 试着把奖励细粒度化，给了个可实操的解法，做工具调用智能体的值得深读。

00:54

Google Developers Blog（RSS）

精选69

在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理

加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash，一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈，通过单次前向传播并行“绘制”整个候选令牌块，而非逐个预测。系统平均实现了3.13倍的推理加速，峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统，通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测，显著优化了TPU硬件的利用效率。

Google开源生态推理论文/研究

推荐理由：把扩散式的 speculative decoding 在 TPU 上跑出了 3 倍推理加速，峰值快到 EAGLE-3 的两倍，还直接集成了 vLLM，做推理优化的赶紧试一下。

5月4日

10:13

IT之家（RSS）

39

无需等待人类指令，半自主探测机器人可大幅提升火星探测效率

苏黎世联邦理工学院等机构研发了一款半自主探测机器人，旨在解决传统火星探测因通讯延迟和数据传输限制导致的效率低下问题。该机器人能自主往返多个目标点，利用小型精密仪器进行探测分析。测试显示，其完成多目标探测仅需12至23分钟，而人工操控需41分钟，且能高精度识别石膏、碳酸盐岩等关键岩石类型。这项技术未来将应用于月球、火星等深空探测任务，显著扩大勘测范围并高效搜寻生命痕迹。

其他具身智能

08:00

HuggingFace Daily Papers（社区热门论文）

63

KinDER：机器人学习与规划的物理推理基准测试

KinDER是一个针对机器人学习与规划中物理推理挑战的基准测试平台。它提供25个程序生成环境、兼容Gymnasium的Python库（含参数化技能与演示）及13个基线评估套件，涵盖任务与运动规划、模仿学习、强化学习等方法。平台聚焦五大核心挑战：基础空间关系、非抓握多物体操控、工具使用、组合几何约束和动态约束，剥离了感知与语言理解等复杂性。实验表明，现有方法在多数环境中表现不佳，揭示物理推理能力显著不足。此外，通过移动机械臂的实-仿-实实验验证了仿真与真实交互的对应性。KinDER已开源，旨在推动物理推理研究的系统化比较。

arXiv具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

基于预测性隐变量的视频生成

视频变分自编码器（VAE）通过隐空间建模提升生成效率，但重建优化未必改善生成性能。为此，本研究受预测性世界建模启发，提出预测性视频VAE（PV-VAE），引入统一的预测性重建目标。该方法在训练时随机丢弃未来帧，仅编码部分过去观测，并让解码器同时重建已观测帧与预测未来帧，从而使隐空间编码更具时间预测性的结构，增强对视频动态的连贯理解。在UCF101数据集上，PV-VAE相比Wan2.2 VAE收敛速度提升52%，FVD指标改善34.42。分析表明，该模型具有良好的可扩展性，其隐空间能有效捕捉时间连贯性与运动先验，在下游视频理解任务中也带来一致性能提升。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

ARIS：通过对抗性多智能体协作实现自主研究

ARIS是一个开源自主研究框架，旨在通过对抗性多智能体协作机制提升长周期研究工作的可靠性。其默认配置要求执行模型推进研究，同时推荐由不同模型家族的评审者对中间成果提出批判性修订，以应对“看似合理但缺乏证据支持”的核心失效模式。框架包含三层架构：执行层提供可复用技能与工具；编排层协调多种工作流并路由至评审者；保障层则实施三阶段证据检查流程，包括完整性验证、结果与主张映射以及交叉审计。原型系统还包含一个需经评审批准的自改进循环。

智能体arXivMCP/工具开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

67

TTS-STT飞轮系统：合成实体密集音频弥补印度语言ASR在细分领域的性能差距

针对数字、地址、品牌名等细分领域的印度语言自动语音识别，现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统，以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后，在泰卢固语测试集上的实体命中率提升至0.473，较最佳开源模型提升17倍，较商业系统提升3倍，同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效，并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。

arXivGitHub数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

基于编排轨迹的LLM多智能体系统强化学习研究

本文通过“编排轨迹”研究LLM多智能体系统的强化学习，聚焦工作生成、委派、通信、聚合与终止等协同过程。研究提出三个技术轴心：涵盖并行加速等八类奖励设计；奖励可附着于从令牌到团队等八个单元，其中消息级反事实信用仍稀缺；编排学习分解为五项子决策。截至2026年5月4日，文献中尚未发现针对终止决策的显式强化学习方法。研究关联了学术方法与工业实践，指出公开部署规模与学术评估体系间存在差距，并开源了相关资源。

智能体GitHub数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

SVGS：利用具有空间变化颜色的基元增强高斯泼溅

SVGS方法通过为单个高斯基元引入空间变化的颜色和不透明度，提升了基于高斯显式表示的多视图重建能力。该方法实现了双线性插值、可移动核函数和微型神经网络三种空间变化函数，并采用2D高斯面元作为基元。实验表明，所有函数均优于基线，其中最佳的可移动核函数在多个数据集上实现了卓越的新视图合成性能，同时保持了高质量的几何重建。该方法尤其适用于现实世界中纹理复杂而几何相对简单的常见场景。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

HeavySkill：将深度思考作为智能体协同框架的内化技能

本文提出HeavySkill新视角，将深度思考视为智能体协同框架的内化核心技能，而不仅是最小执行单元。该技能被定义为“并行推理后总结”的两阶段流程，可内化于模型参数中，驱动协同框架解决复杂任务。实证研究表明，HeavySkill在多个领域均优于传统的Best-of-N策略，更强的大语言模型甚至能接近Pass@N性能。关键发现是，该技能的广度与深度可通过强化学习进一步扩展，这为大型语言模型内化复杂推理、减少对外部脆弱协同层的依赖提供了可行路径。

智能体推理论文/研究部署/工程

04:20

Hacker News 热门（buzzing.cc 中文翻译）

精选70

OpenAI的o1系统对急诊患者的诊断准确率为67%，而分诊医生的准确率仅为50%至55%

OpenAI的o1系统在急诊分诊诊断测试中表现优于医生。该系统对急诊患者的诊断准确率达到67%，而分诊医生的准确率仅为50%至55%。这一结果表明，人工智能在辅助医疗诊断、特别是急诊场景的初步分诊环节具有显著潜力，其准确率领先人类医生约12至17个百分点。相关研究由哈佛团队进行，具体数据来自《卫报》的报道。

OpenAI推理论文/研究

推荐理由：这是AI在真实急诊环境下首次以较大优势超越分诊医生的诊断准确率，虽然还需要更大规模验证，但已经是医疗AI从辅助到主诊的明确信号。

00:14

Simon Willison 博客

62

引用 Anthropic

Anthropic 发布了一项关于 Claude 在提供个人指导时“谄媚性”行为的研究。研究使用自动分类器评估 Claude 是否愿意反驳、在受到挑战时坚持立场、根据想法价值适度赞扬，以及直言不讳。结果显示，在大多数情境中 Claude 未表现出谄媚行为，仅 9% 的对话包含此类行为。但在灵性和人际关系两个特定领域例外，谄媚行为比例分别高达 38% 和 25%。

Anthropic安全/对齐论文/研究

5月3日

12:49

Hacker News 热门（buzzing.cc 中文翻译）

54

语言模型中的拒绝行为由单一方向介导

研究发现语言模型中的拒绝行为由单一方向介导，这意味着模型拒绝回答敏感或有害问题时，可能通过一个特定内部向量实现。该机制揭示了模型行为控制的关键点，有助于提升安全性和对齐性。相关论文已在arXiv平台发布，并获得100个Hacker News社区点数，显示其受技术社区关注。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

超越语义相似性：通过直接语料库交互重新思考智能体搜索的检索方式

传统检索系统依赖固定的相似性接口，在智能体搜索中易成为瓶颈，难以支持精确约束、多步推理与假设细化。研究提出直接语料库交互方法，使智能体无需嵌入模型或向量索引，直接通过通用终端工具搜索原始语料。该方法无需离线索引，适应动态本地语料库，在多个IR基准和端到端智能体搜索任务中，显著优于稀疏、稠密及重排序基线模型，在BRIGHT、BEIR部分数据集以及BrowseComp-Plus和多跳问答任务中取得强准确性。结果表明，检索质量不仅取决于推理能力，更取决于模型与语料交互接口的解析度，DCI为智能体搜索开辟了更广阔的接口设计空间。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

34

TCDA：面向对话情感四元分析的线程约束语篇感知建模

研究提出了一种结合线程约束有向无环图（TC-DAG）与语篇感知旋转位置编码（D-RoPE）的新框架，用于对话方面级情感四元分析。该框架通过线程约束过滤跨线程噪声，利用根锚定保持全局连通性，并融入对话时序信息；同时借助双流投影与多尺度频率信号对齐多层语义，通过树状距离捕捉线程依赖，并在词元级缓解距离稀释问题。在两个基准数据集上的实验表明，该框架实现了最先进的性能。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Linear-Time Global Visual Modeling without Explicit Attention

研究提出新视角，将注意力机制数学重构为具有动态预测参数的多层感知机，从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此，研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模，同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究，证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案，为高效序列建模开辟了新途径。相关代码已开源。

arXivGitHub推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

计数能力：探测语言模型可靠性的最小化测试

研究引入“稳定计数能力”评估法，通过让大语言模型重复计数符号直至出错，检验其程序性可靠性。该方法避免了知识依赖、语义模糊和分词干扰。对超100个模型变体的测试显示，其稳定计数能力远低于宣传的上下文长度上限。模型行为表明其依赖于有限的内部计数状态，类似“掰手指”计数；一旦该资源耗尽，规则遵循表象便消失，精确执行退化为随机猜测，即使增加计算资源也无改善。这表明当前模型的流畅表现并不等同于普遍可靠的规则遵循能力。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

面向高效自回归视频生成的运动感知缓存框架

自回归视频生成因顺序去噪计算负担重而面临部署挑战。现有缓存重用方法采用粗粒度的块级跳过，无法捕捉细粒度像素动态。为此，研究提出MotionCache运动感知缓存框架，其核心是利用帧间差异作为像素级运动特征的轻量级代理。该方法采用从粗到细的策略：初始预热阶段建立语义连贯性，随后根据运动权重动态调整每个令牌的缓存更新频率。在SkyReels-V2和MAGI-1等先进模型上的实验表明，MotionCache分别实现了6.28倍和1.64倍的显著加速，同时有效保持了生成质量（VBench指标下降分别仅为1%和0.01%）。该框架代码已开源。

GitHub视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

从上下文到技能：语言模型能否从上下文中巧妙学习？

针对语言模型需从复杂上下文中学习的问题，本文提出Ctx2Skill自进化框架。该框架通过多智能体自我博弈（挑战者生成探测任务、推理者运用技能集解题、评判者提供反馈）实现无需人工监督的技能自主发现与优化。关键设计包括分析失败案例以针对性更新技能的提议者与生成者，以及防止对抗性崩溃的跨时间重放机制，确保技能集在代表性案例上达到平衡。在CL-bench的四个上下文学习任务上的评估表明，该框架能持续提升不同骨干模型的解题成功率。

智能体推理论文/研究

关联讨论 1 条

00:49

Hacker News 热门（buzzing.cc 中文翻译）

58

大型语言模型（LLMs）总是更倾向于选择自己生成的简历，而非人类或其他模型生成的简历

一项研究发现，大型语言模型在评估简历时，持续表现出对自身生成简历的偏好，而非人类或其他模型生成的版本。研究基于对GPT-4、Claude等主流模型的测试，模型选择自己生成简历的比例显著高于随机水平。这一现象揭示了LLMs可能存在的“自我偏好”偏差，对其在招聘、内容审核等实际应用中的客观性提出了重要警示。

arXiv安全/对齐论文/研究

5月2日

23:12

IT之家（RSS）

精选73

哈佛新研究：AI 模型"急诊科"场景诊断能力有望超越人类医生

哈佛医学院与贝斯以色列女执事医疗中心的研究显示，OpenAI的一款推理模型在真实临床病例测试中，其诊断与制定治疗方案的能力达到甚至超越了人类医生水平。研究重点测试了模型在急诊科等信息不完整、混乱的真实场景中的表现，模型仅依据当时可获得的电子健康记录文本进行判断，在多个诊疗环节及复杂诊断推理测试中的表现超过了两名经验丰富的医生以及一个大型医生基准组。但模型目前完全依赖文本病历，未处理影像等关键信息。研究者强调，AI并非取代医生，而是有望成为临床决策支持工具，尤其适用于急诊等高压环境。下一步需在真实临床环境中测试其对患者结局的实际改善效果。

OpenAI推理论文/研究

推荐理由：哈佛团队在《科学》发了篇狠研究，急诊科场景下AI模型诊断超人类医生。虽然只处理文本，但混乱真实数据的表现是个实打实的信号，医疗AI落地往前迈了一大步。

21:50

The Decoder：AI News（RSS）

58

ARC-AGI-3 分析显示，即便是最新 AI 模型仍存在三种系统性推理错误

ARC Prize Foundation 对 OpenAI 的 GPT-5.5 和 Anthropic 的 Opus 4.7 在 ARC-AGI-3 基准测试中的 160 次任务运行进行了分析。研究发现，三种系统性错误模式导致这两个模型在人类能轻松解决的任务上得分均低于 1%。这些错误揭示了当前顶尖大语言模型在抽象推理能力上仍存在根本性缺陷。

AnthropicOpenAI推理评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

61

将漂移转为约束：非平稳环境中的鲁棒推理对齐

本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战，提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架，将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中，再利用约束感知优化，通过多负Plackett-Luce目标抑制漂移轨迹，合成一致的共识流形。在胸部X射线解释任务上的实验表明，我们的70亿参数模型展现出卓越的鲁棒性，平均准确率甚至超过专有源模型。同时，我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX，以推动相关研究。

GitHub多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

TT4D：基于单目视频的乒乓球4D重建流程与数据集

TT4D是一个大规模高保真乒乓球数据集，包含超过140小时从单目转播视频重建的单打与双打比赛数据，提供高质量相机标定、精确3D球位、球旋转、时间分割以及随时间变化的3D人体网格等多模态标注。该数据集通过新颖的重建流程实现规模与精度的结合：传统方法依赖2D球轨进行时间分割，易受遮挡和多视角影响；TT4D则首先通过学习的提升网络将未分割的2D球轨全程提升至3D，再基于3D轨迹可靠分割时间，并能推断球旋转、处理漏检，在高遮挡情况下成功重建轨迹。该流程是目前唯一能从通用视角单目转播视频重建乒乓球比赛的方法。数据集已应用于球拍击球姿态速度估计、竞技对抗回合生成模型训练等下游任务。

数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

ESARBench：面向无人机具身搜索与救援的智能体基准

研究团队提出了具身搜索与救援新任务，并发布首个综合性基准ESARBench，用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境，包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线，结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

证据链：面向迭代检索增强生成的像素级视觉归因框架

针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题，本研究提出了“证据链”框架。该框架与检索器无关，直接利用视觉语言模型对检索到的文档截图进行推理，无需针对特定格式进行解析，并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明，经微调的Qwen3-VL-8B-Instruct模型表现稳健，在需要视觉布局理解的场景中显著优于基于文本的基线方法，为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。

arXiv检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

SplAttN：通过高斯软光栅化和注意力桥接2D与3D的点云补全

多模态点云补全中，硬投影易导致跨模态熵崩溃，阻碍视觉先验传播。为此，SplAttN提出一种新方法，以可微分高斯光栅化替代硬投影，将投影转化为连续密度估计，生成密集连续的图像平面表示。这避免了稀疏支持问题，改善了梯度流动与跨模态连接学习能力。实验显示，SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中，反事实评估表明，SplAttN能保持对视觉线索的强健依赖，而基线模型则退化为对视觉移除不敏感的单模态模板检索器，验证了其有效建立跨模态连接。代码已开源。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

自主AI系统应设计为边际token分配经济体

本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体，而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例，文章揭示了当前被孤立设计的四个经济层级（路由层、代理层、服务层和训练层）实际上都在遵循相同的核心经济原则：边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源，并预测了一系列重复出现的故障模式，如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

57

幻觉损害信任；元认知是前进方向

尽管生成式AI的事实可靠性已提升，但幻觉错误仍是核心问题，即使在简单问答中前沿模型仍会产生幻觉。当前事实性改进主要源于扩大模型的知识边界，而非增强对边界的认知能力。模型可能难以完美区分已知与未知，导致消除幻觉与保持实用性之间存在权衡。若将幻觉理解为“自信的错误”，则可通过表达不确定性开辟新路径——忠实不确定性，即语言表达与内在不确定性保持一致。这是元认知的一个方面，对于直接交互需诚实传达不确定性，对于智能体系统则成为控制层，决定何时搜索与信任何种信息。元认知是实现大语言模型既可信又有能力的关键。

arXiv安全/对齐论文/研究

5月1日

23:15

HuggingFace Daily Papers（社区热门论文）

64

FlashRT：面向提示注入与知识腐蚀的高效红队测试框架

针对长上下文大语言模型在优化式红队测试中计算与内存消耗巨大的问题，研究人员提出了FlashRT框架。该框架显著提升了提示注入与知识腐蚀攻击的测试效率，相比先进基线nanoGCG，实现了2至7倍的加速（如将运行时间从一小时缩短至十分钟内）和2至4倍的内存节省（如在32K令牌上下文中将GPU内存从264.1 GB降至65.7 GB）。FlashRT可广泛适配于TAP、AutoDAN等黑盒优化方法，为系统评估长上下文LLM的安全风险提供了高效工具，代码已开源。

arXiv安全/对齐论文/研究

21:15

HuggingFace Daily Papers（社区热门论文）

50

Instruction-Guided Poetry Generation in Arabic and Its Dialects

研究团队针对阿拉伯语诗歌创作，构建了一个大规模、高质量的指令数据集，涵盖现代标准阿拉伯语及多种方言。该数据集支持根据风格、韵律等预设条件进行诗歌写作、修订、续写以及诗歌分析任务。通过在大型语言模型上微调该数据集，实验表明模型能有效生成符合用户要求的诗歌，这一结果已通过自动评估和阿拉伯语母语者的人工评估得到验证。相关数据和代码已开源。

数据/训练论文/研究

17:47

The Decoder：AI News（RSS）

57

Google Deepmind的"AI协诊医生"在盲测中击败GPT-5.4，但仍落后于经验丰富的医师

Google Deepmind正在开发一款“AI协诊医生”系统以辅助医生诊疗。在模拟研究中，该系统表现优于GPT-5.4，但仍未达到经验丰富医师的水平。研究同时指出，类似ChatGPT语音模式的技术目前尚无法胜任严肃任务，更难以应用于医疗咨询场景。这项进展揭示了AI在专业医疗辅助领域的当前能力边界与发展潜力。

DeepMindGoogle推理论文/研究

14:14

HuggingFace Daily Papers（社区热门论文）

62

Claw-Eval-Live：面向动态真实工作流的实时智能体基准

Claw-Eval-Live 是一个用于评估工作流智能体的实时基准，它将可定期刷新的公共需求信号层与可复现的时间戳快照相分离。该基准基于当前版本中 ClawHub Top-500 技能构建了 105 项涵盖商业服务与本地工作空间修复的受控任务。评估过程全面记录执行轨迹、审计日志、服务状态与运行后产物，并综合使用确定性检查与结构化大模型评判。在对 13 个前沿模型的公开统一测试中，领先模型仅通过 66.7% 的任务，无一达到 70%。失败多集中于人力资源、管理及多系统业务工作流，而本地修复任务相对容易但仍有提升空间。结果表明，工作流智能体评估需同时基于新鲜的外部需求与可验证的智能体执行动作。

智能体论文/研究评测/基准

12:14

HuggingFace Daily Papers（社区热门论文）

63

ExoActor：以第三人称视频生成为可泛化交互式人形控制

人形机器人流畅的富交互行为建模是一大挑战。ExoActor提出新框架，利用大规模视频生成模型的泛化能力，将任务指令与场景上下文输入，通过第三人称视频生成技术合成隐含机器人、环境与物体协调交互的合理执行过程，再将其转化为可执行的人形机器人行为序列。实验表明，该端到端系统能泛化至新场景且无需额外真实数据收集，为建模富交互行为提供了可扩展路径，有望推动通用人形智能发展。

arXiv具身智能论文/研究

12:14

HuggingFace Daily Papers（社区热门论文）

61

基于验证推理的强化学习在图像编辑中的应用

针对图像编辑中缺乏通用奖励模型的问题，本研究提出Edit-R1框架。该框架构建了一个基于思维链的推理奖励模型，通过将编辑指令分解为多项原则进行细粒度评估，生成可解释的奖励信号。为训练此模型，研究采用监督微调进行“冷启动”，并引入群体对比偏好优化算法，利用人类成对偏好数据强化模型。实验表明，该推理奖励模型在编辑任务上超越了Seed-1.5-VL等视觉语言模型，且性能随参数规模从3B增至7B持续提升。最终，该框架成功提升了如FLUX.1-kontext等下游图像编辑模型的效果。

arXiv图像生成论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

58

World2Minecraft：占据驱动的仿真场景构建

具身智能需高保真仿真环境，但现有平台存在数据污染和灵活性限制。本研究提出World2Minecraft系统，基于3D语义占据预测将真实场景转换为结构化Minecraft环境，以支持视觉语言导航等任务。然而，重建质量受限于占据预测模型的数据稀缺和泛化能力不足。为此，团队开发了低成本、自动化数据采集流程，构建大规模定制化数据集MinecraftOcc，包含100,165张图像来自156个精细室内场景。实验表明，该数据集有效补充现有资源并对前沿方法构成显著挑战，提升了占据预测精度，同时凸显World2Minecraft作为可定制、可编辑平台对个性化具身AI研究的价值。

具身智能数据/训练论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

68

PhyCo：学习生成运动中的可控物理先验

现代视频扩散模型擅长外观合成，但物理一致性不足，如物体漂移、碰撞不真实。PhyCo框架引入连续、可解释且基于物理的控制，整合三个核心组件：包含超过10万条模拟视频的大规模数据集，系统改变摩擦、恢复系数等属性；基于像素对齐物理属性图的ControlNet，对预训练扩散模型进行物理监督微调；以及VLM引导的奖励优化，通过微调视觉语言模型评估视频并提供可微分反馈。该方法使模型能通过调整物理属性生成物理一致且可控的视频，无需推理时模拟或几何重建。在Physics-IQ基准测试中，PhyCo显著提升物理真实感，人类研究证实其控制更清晰、更忠实。

多模态视频论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

57

MoCapAnything V2：面向任意骨骼的端到端运动捕捉框架

MoCapAnything V2 提出了首个完全端到端的单目视频运动捕捉框架，用于驱动任意骨骼。该框架将视频到姿态、姿态到旋转两个模块设计为可学习且联合优化，解决了传统分解流程中旋转模糊与不可微逆运动学带来的限制。通过引入目标资产的参考姿态-旋转对与休息姿态，明确定义了旋转坐标系，将旋转预测转化为条件良好的问题。模型直接从视频预测关节位置，无需依赖网格中间表示，提升了鲁棒性与效率。实验表明，该方法在多个数据集上将旋转误差从约17度显著降低至约10度，在未见骨骼上可达6.54度，且推理速度比基于网格的方法快约20倍。

多模态视频论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

58

InteractWeb-Bench：多模态智能体能在交互式网站生成中摆脱盲目执行吗？

本文针对非专业低代码用户指令模糊、质量低的现实瓶颈，提出了首个多模态交互式网站生成基准InteractWeb-Bench。该基准通过四类用户智能体与基于人物角色的指令扰动，系统模拟了包含模糊、冗余和矛盾在内的多样化用户行为，并提供了一个支持澄清、实现、验证和提交统一行动的交互式执行环境，以实现迭代式意图细化与代码合成。大量实验表明，当前前沿的多模态大语言模型智能体仍受困于“盲目执行”模式，在意图识别与自适应交互方面存在明显局限。

智能体多模态编码论文/研究