AIHOT

5月7日

15:16

IT之家（RSS）

65

腾讯开源 OpenSearch-VL，突破多模态搜索 AI 智能体训练瓶颈

腾讯混元联合多所高校开源了OpenSearch-VL多模态训练方案，旨在通过强化学习解决前沿多模态搜索智能体的高质量训练数据瓶颈。该方案提供了从数据构建、工具集成到训练算法的完整开源框架。其核心是构建了高质量数据管道，通过维基百科路径采样与模糊实体重写等技术，产出高质量数据集，抑制检索捷径，鼓励智能体进行多跳搜索与推理。工具环境集成了文本/图像搜索、OCR及多种图像处理功能。实验结果显示，其模型将基线平均得分从47.8显著提升至61.6。

智能体多模态搜索论文/研究

14:16

IT之家（RSS）

62

全球首发，三星 Galaxy Watch 手表实现提前预测晕厥

三星与韩国中央大学光明医院的联合临床研究证实，Galaxy Watch 6能高精度预测血管迷走性晕厥。该研究对132名疑似患者进行评估，利用手表的光电容积脉搏波描记法传感器和AI算法分析心率变异性数据，建立的模型可提前5分钟预测晕厥事件，准确率达84.6%。该成果已发表于《European Heart Journal – Digital Health》，是全球首次证明商用智能手表具备此潜力，提前预警有助于患者采取安全措施，减少摔倒导致的继发性损伤。

端侧论文/研究

13:22

HuggingFace Daily Papers（社区热门论文）

精选76

OpenSearch-VL：前沿多模态搜索智能体的开源方案

研究团队推出完全开源的OpenSearch-VL方案，用于训练前沿多模态深度搜索智能体。该方案包含三大核心：通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集（包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k）；统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境；以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分，在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。

智能体arXiv多模态论文/研究

推荐理由：把多模态搜索 agent 的完整训练配方开源了，数据、环境、算法全都有，七个基准平均涨 10 点，直接对标商业模型，做深度搜索的同学可以无脑跟。

12:22

HuggingFace Daily Papers（社区热门论文）

58

基于上下文稀疏注意力的闪电式统一视频编辑

针对上下文学习视频编辑中的计算瓶颈，研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现，采用预选择策略修剪冗余上下文，并通过动态查询分组机制，将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集，团队构建了LIVEditor模型。实验表明，该模型在注意力模块延迟降低约60%的同时，在多个评测基准上超越现有先进方法，实现了近无损加速并保持了视觉保真度。

arXiv多模态视频论文/研究

12:22

HuggingFace Daily Papers（社区热门论文）

61

Stream-T1：面向流式视频生成的测试时缩放框架

针对流式视频生成中候选探索成本高、缺乏时序引导的问题，研究团队提出了首个综合性测试时缩放框架Stream-T1。该框架包含三个核心单元：流式缩放噪声传播利用历史高质量块噪声优化当前生成，建立时序依赖；流式缩放奖励剪枝结合短期与基于滑动窗口的长期评估，平衡局部空间美学与全局时间连贯性；流式缩放记忆沉淀根据奖励动态管理KV缓存上下文。在5秒和30秒视频基准测试中，Stream-T1显著提升了时间一致性、运动平滑度与帧级视觉质量，同时大幅降低了计算开销。

arXiv推理论文/研究

11:22

HuggingFace Daily Papers（社区热门论文）

59

PhysForge：为交互式虚拟世界生成基于物理的3D资产

针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈，现有方法多忽视功能性。本文提出PhysForge，一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段，视觉语言模型担任“物理架构师”，规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段，基于物理的扩散模型通过新颖的运动体素注入机制，合成高保真几何与精确运动学参数。实验证明，PhysForge能生成功能合理、可直接仿真的资产，为交互式3D内容与具身智能体提供了强大的数据引擎。

arXiv具身智能多模态数据/训练

11:04

Hacker News 热门（buzzing.cc 中文翻译）

65

学习扩散模型的积分

研究人员发布了学习扩散模型积分的新方法，称为Flow Maps，该技术通过数学积分优化扩散过程的概率流，提升生成AI模型的采样效率和图像质量。在Hacker News上获得102点，显示科技社区的高度关注。这一进展可能降低扩散模型的计算成本，推动其在图像生成等领域的实际应用，为生成模型训练提供更高效的解决方案。

图像生成论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

51

StableI2I：识别图像转换中的非预期变化

针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题，研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架，能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench，用于系统评估多模态大模型在此类判断任务上的准确性。实验表明，该框架能提供精细、可解释的评估结果，且与人类主观判断高度相关，可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。

图像生成论文/研究评测/基准

10:22

HuggingFace Daily Papers（社区热门论文）

64

D-OPSD：基于在线策略自蒸馏的步数蒸馏扩散模型持续微调方法

针对高性能少步图像生成模型（如Z-Image-Turbo）在持续监督微调中会损害其固有少步推理能力的问题，本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点，将训练构建为在线策略自蒸馏过程：模型同时扮演教师（以文本和图像多模态特征为条件）和学生（仅以文本特征为条件）双重角色，并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格，同时保持原有的高效少步生成能力。

图像生成数据/训练论文/研究

08:30

Apple Machine Learning Research（RSS）

精选63

Normalizing Flows with Iterative Denoising

研究团队在归一化流（NFs）生成模型领域取得新进展，提出了迭代TARFlow（iTARFlow）。该方法在训练阶段保持完全端到端的基于似然的目标，采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势，使其成为扩散模型等方法的可行替代方案，进一步提升了归一化流生成模型的性能表现。

图像生成论文/研究

推荐理由：Normalizing Flows 这个老方法被苹果玩出新花样，iTARFlow 在训练上保留端到端似然，采样却自回归，给做生成模型的人提供了扩散模型之外的第二个靠谱选择。

08:30

Apple Machine Learning Research（RSS）

精选64

SpecMD：关于推测性专家预取的综合研究

研究团队开发了SpecMD，这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型，这类模型虽然实现了稀疏专家激活，但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略，但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白，系统性地评估缓存策略的交互影响与硬件适配性。

推理论文/研究部署/工程

推荐理由：MoE推理的缓存策略一直靠经验摸，Apple给的标准化框架能系统比较不同策略，做分布式推理的可以省些心力。

08:00

HuggingFace Daily Papers（社区热门论文）

63

EMO：为涌现模块化预训练混合专家模型

EMO是一种新型混合专家模型，旨在实现模块化部署，允许独立使用和组合专家子集，而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家，仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当，但关键优势在于支持选择性使用专家：仅保留25%的专家仅导致1%的绝对性能下降，保留12.5%时下降3%，而标准MoE在相同设置下会失效。此外，EMO中的专家子集在语义层面（如数学、代码等领域）实现专业化，不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。

arXiv推理论文/研究部署/工程

06:30

Apple Machine Learning Research（RSS）

精选72

从位置认知到功能理解：为多模态大语言模型设立空间功能智能基准

现有基准如VSI-Bench主要评估基础几何感知能力，但未能触及具身智能所需的高阶认知。为此，研究团队推出了空间功能智能基准SFI-Bench，该基准包含超过1700个问题，数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力，标志着对智能体空间认知的评估从几何层面迈向功能层面。

多模态推理论文/研究

推荐理由：Apple 自己搞的 SFI-Bench 把评估从几何定位推进到功能理解，这个方向很对，做具身智能和空间推理的团队该跟一下。

5月6日

12:20

HuggingFace Daily Papers（社区热门论文）

62

PatRe：一个用于专利审查的全周期审查意见与答复生成基准

针对现有基准将专利审查简化为分类或静态抽取的局限，本文提出了PatRe，首个模拟完整专利审查生命周期（包括审查意见生成与申请人答复）的基准。它包含480个真实案例，支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现，专有与开源模型性能存在差异，且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时，兼具潜力与当前局限。相关代码与数据集已开源。

arXiv论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

65

SymptomAI：面向日常症状评估的对话式AI代理

研究通过Fitbit应用向13,917名参与者随机部署SymptomAI对话代理进行症状访谈与鉴别诊断。在1,228名报告临床诊断的参与者中，SymptomAI的诊断准确性显著高于独立临床医生（OR = 2.47）。采用专用症状访谈策略（在诊断前获取额外信息）的代理表现优于用户引导对话。基于1,509个普通人群对话的辅助分析验证了结果的普适性。此外，利用SymptomAI诊断标签分析超50万天可穿戴数据发现，急性感染（如流感）与生理指标变化存在强关联（OR > 7）。

智能体arXiv论文/研究

10:20

HuggingFace Daily Papers（社区热门论文）

精选72

OpenSeeker-v2：利用高信息量、高难度轨迹突破搜索智能体的极限

本研究提出了一种仅通过监督微调（SFT）训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进：扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2，在四个基准测试中均取得了领先性能，全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体，其模型权重将开源以促进社区研究。

智能体开源生态搜索论文/研究

推荐理由：纯学术团队仅靠SFT和一万条数据，就在多个搜索基准上反超工业级管线，并且开源模型。这证明高质量数据比烧钱RL更关键，做Agent的朋友值得认真看。

10:20

HuggingFace Daily Papers（社区热门论文）

67

Workspace-Bench 1.0：针对具有大规模文件依赖的工作空间任务的AI智能体基准测试

本文提出了Workspace-Bench 1.0基准，用于评估AI智能体在需要处理大规模异构文件依赖的真实工作空间任务中的能力。该基准构建了包含5类工作者档案、74种文件类型、超2万个文件（最大20GB）的模拟工作空间，并设计了388项附带文件依赖图的任务，总计7399个评分项，要求智能体进行跨文件检索、上下文推理与自适应决策。同时提供的精简版Workspace-Bench-Lite（100项任务）可将评估成本降低约70%。对4种主流智能体框架和7个基础模型的测试表明，最佳智能体得分仅为68.7%，远低于人类表现的80.7%，平均表现仅47.4%，揭示出现有AI在此类任务上仍远未达到可靠水平。

智能体论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

63

交互式世界模型基准测试与统一动作生成框架

为系统评估交互式世界模型的物理交互能力，研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集，并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题，研究设计了一个统一的动作生成框架，构建了六类任务共4900个测试样本，以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估，研究揭示了当前关键局限，为未来方向提供了见解。相关排行榜已公开。

arXiv具身智能多模态论文/研究

08:01

Hacker News 热门（buzzing.cc 中文翻译）

65

GLM-5V-Turbo：迈向多模态智能体的原生基础模型

GLM-5V-Turbo作为一款原生多模态基础模型发布，旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异，在MMBench基准测试上达到90.1分，在MathVista测试中取得78.5%的准确率，并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力，为构建更高效的端到端多模态智能体提供了新的模型基础。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

KernelBench-X：评估LLM生成的GPU内核的综合基准测试

KernelBench-X基准测试系统评估LLM生成的Triton GPU内核，涵盖15个类别共176项任务。研究比较五种代表性方法，发现：任务结构对正确性的影响远超方法设计，类别因素解释的方差是方法的近三倍；迭代优化将编译成功率从52.3%提升至68.8%，但平均加速比从1.58倍降至1.44倍；46.6%的正确内核性能低于PyTorch基线，量化任务全部失败。未来需关注全局协调、数值精度建模与硬件效率整合。

数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

RemoteZero：无需人工标注的地理空间推理

地理空间推理模型通常依赖人工标注的边界框坐标进行监督，这限制了其在海量无标注遥感数据上的自我进化。为此，研究团队提出RemoteZero框架，它利用多模态大语言模型在判别区域语义方面的优势，以内在语义验证取代几何坐标监督，从而实现了无需边界框标注的训练。该框架支持迭代式自我进化，模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明，RemoteZero在定位任务上取得了与强监督方法相竞争的性能，展现了自验证训练在地理空间推理领域的潜力。

arXiv多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

54

RaguTeam在SemEval-2026任务8中：基于评判者协调的LLM集成系统实现忠实多轮响应生成

RaguTeam团队在SemEval-2026任务8的B任务（基于参考段落生成）中获胜。其方法采用一个包含七个大型语言模型的异构集成系统，结合两种提示变体，并由GPT-4o-mini作为评判者为每个实例选择最佳响应。该系统在26支队伍中排名第一，以0.7827的条件调和平均值显著优于最强基线模型。消融实验证明，模型家族、规模和提示策略的多样性对集成效果至关重要。团队还发布了领域适应的7B模型Meno-Lite-0.1，在成本与性能间取得了良好平衡，并对任务数据集的标注局限性及改进方向进行了分析。相关代码已开源。

开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

ReflectDrive-2：基于强化学习对齐的自编辑离散扩散驾驶规划器

ReflectDrive-2是一种用于自动驾驶的掩码离散扩散规划器，它将规划表示为离散轨迹令牌并通过并行掩码解码生成。其核心是AutoEdit自编辑功能，可在同一模型内直接重写选定令牌，无需额外优化网络。模型采用两阶段训练：先通过扰动专家轨迹进行监督学习，再利用强化学习微调“决策-起草-反思”全流程，将最终驾驶奖励分配给编辑后的轨迹。强化学习使编辑效果的PDMS指标增益从0.3提升至1.9。在NAVSIM测试中，该模型仅使用摄像头输入即达到91.0 PDMS，在最优6次采样下可达94.8 PDMS，平均延迟为31.8毫秒。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

TabEmbed：面向表格理解的基准测试与通用嵌入学习

基础模型在自然语言处理中建立了统一表示，但表格数据领域仍待探索。现有方法存在根本限制：基于LLM的方法缺乏检索兼容的向量输出，而文本嵌入模型常无法捕捉表格结构和数值语义。为此，我们首先引入表格嵌入基准TabBench，以评估嵌入模型的表格理解能力；然后提出首个通用嵌入模型TabEmbed，将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题，利用大规模对比学习和正样本感知的困难负样本挖掘技术，捕捉细粒度结构与数值语义。实验表明，TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型，为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。

开源生态搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

零样本逻辑规则归纳的基础模型

研究团队提出神经规则归纳器（NRI），一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限，转而使用类条件率、熵等与领域无关的统计属性来表征文字，从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器，后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行，支持仅基于预测准确性的端到端训练。评估表明，NRI在规则恢复、对噪声和虚假相关性的鲁棒性，以及在真实世界基准上的零样本迁移方面表现良好，为符号推理的基础模型开辟了新可能。

arXiv推理论文/研究

04:27

Apple Machine Learning Research（RSS）

精选62

Stochastic KV Routing：实现自适应深度方向的缓存共享

为降低大语言模型推理时KV缓存的高昂内存开销，研究提出了一种沿模型深度维度优化的新方法。该方法通过随机KV路由，在Transformer模型的各层之间动态共享KV缓存，而非每层保留完整独立缓存。实验表明，在保持模型质量基本不变的前提下，该方法能将KV缓存的内存占用减少高达50%，为降低大模型服务成本提供了与现有时间轴压缩、淘汰技术正交的新优化路径。

论文/研究部署/工程

推荐理由：苹果这篇不走寻常路，从深度维度压缩KV缓存，是推理服务端降本的新思路，做LLM部署的值得一读。

04:17

HuggingFace Daily Papers（社区热门论文）

55

一种缩小游戏引擎合成数据集中 Sim2Real 外观差异的混合方法

研究提出一种混合方法，旨在缩小游戏引擎合成数据与真实图像之间的外观差异。该方法结合了先进图像生成扩散模型 FLUX.2-4B Klein 与传统图像翻译模型 REGEN 的优势。实验表明，传统模型 REGEN 在性能上优于 FLUX.2-4B Klein，而将两者结合使用的混合方法，能够比单独使用任一模型获得更好的视觉真实感，同时保持语义一致性。相关代码已在 GitHub 开源。

arXiv图像生成数据/训练论文/研究

5月5日

12:17

HuggingFace Daily Papers（社区热门论文）

64

感知流网络：面向视觉推理的感知与推理解耦方法

大型视觉语言模型因优化目标无法约束视觉轨迹，易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督，但偏向几何精度且推理效用有限。为此，本研究提出感知流网络，通过解耦感知与推理建立自条件生成过程，并借助变分强化学习整合多维奖励与邻近几何塑造，从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证，在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数，创造了新的性能记录。

arXiv多模态推理论文/研究

12:17

HuggingFace Daily Papers（社区热门论文）

48

基于轨道空间几何概率路径的粒子系统生成建模

研究团队提出轨道空间几何概率路径（OGPP），这是一个专为粒子系统生成建模设计的原生粒子流匹配框架。该框架基于两个核心洞见：粒子具有置换对称性，匿名索引会导致难以学习的弯曲流；粒子存在于物理空间，其流终端速度可编码几何属性（如表面法线）。OGPP包含三个关键组件：轨道空间规范化、粒子索引嵌入以及具有弧长感知终端速度的几何概率路径。实验表明，在最小表面基准测试中，OGPP单步推理将误差降低达两个数量级；在ShapeNet上，它以更少的步骤和参数达到或超越了当前最佳性能；在单形状编码任务中，其完全在3D空间运行，生成的法线与重建结果可与6D生成器竞争。

图像生成论文/研究

12:17

HuggingFace Daily Papers（社区热门论文）

精选73

MolmoAct2：面向真实世界部署的动作推理模型

MolmoAct2 是一个为实际部署设计的全开放动作推理模型，在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER，基于 330 万样本语料库训练。团队发布了三个新数据集，包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM（720 小时遥操作轨迹），并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构，嫁接连续动作专家，还引入自适应深度推理变体 MolmoThink，以极低延迟保持几何基础。在广泛实证研究中，MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线，MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。

智能体具身智能多模态开源/仓库

关联讨论 1 条

推荐理由：开源具身动作推理模型首次全面超越 GPT-5 和 Gemini Robotics，还附赠最大的双手操作数据集和全套训练代码，做机器人的同学本周必读。

11:17

HuggingFace Daily Papers（社区热门论文）

63

PhysicianBench：在真实世界电子健康记录环境中评估LLM智能体

PhysicianBench是一个用于评估LLM智能体在真实电子健康记录环境中执行临床任务的基准。该基准包含100项源自真实会诊病例的长周期任务，覆盖21个专科，平均每项任务需调用27次工具。任务要求智能体跨就诊记录检索数据、对异构临床信息进行推理、执行临床操作并生成文档。每个任务被分解为总计670个结构化检查点，通过执行验证进行分级评估。在13个专有和开源LLM智能体的测试中，最佳模型成功率仅为46%，开源模型最高仅达19%，显示当前智能体能力与真实临床工作流程需求存在显著差距。该基准为衡量自主临床智能体的进展提供了基于真实执行的评估标准。

智能体论文/研究

11:17

HuggingFace Daily Papers（社区热门论文）

69

T^2PO：面向稳定多轮智能体强化学习的不确定性引导探索控制框架

多轮强化学习训练常因探索效率低下而不稳定。为此，研究团队提出T^2PO框架，在细粒度层面实施不确定性引导的探索控制。在令牌级别，它监测不确定性动态，当边际变化低于阈值时触发思考干预；在轮次级别，它识别探索进展可忽略的交互并动态重采样，以避免无效计算。在WebShop、ALFWorld和Search QA等多个环境中的评估表明，T^2PO显著提升了训练稳定性与任务性能，并实现了更高效的探索。相关代码已开源。

智能体推理论文/研究

11:17

HuggingFace Daily Papers（社区热门论文）

69

AcademiClaw：当学生为AI智能体设定挑战

研究团队推出AcademiClaw双语基准测试集，包含80项源自大学生真实学术流程的复杂长周期任务，涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选，覆盖超过25个专业领域，包括奥数、语言学、GPU密集型强化学习等，其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行，采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示，最佳通过率仅为55%，分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。

智能体开源/仓库论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

56

Transformer中隐式演绎推理的缩放特性

研究探讨了深度受限Transformer在Horn子句上进行隐式演绎推理的缩放规律。通过系统解耦可证明性与虚假特征、并强制算法对齐，发现在具备双向前缀掩码的足够深模型中，隐式推理在不同图拓扑和问题宽度上能够接近显式思维链的性能表现，但深度外推任务仍需依赖思维链方法。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

Audio-Visual Intelligence in Large Foundation Models

音频-视觉智能已成为人工智能的核心前沿领域，旨在让机器能够感知、生成并交互于多模态现实世界。在大模型时代，音频与视觉的联合建模愈发关键，不仅用于理解，更支持对动态时序信号的可控生成与推理。Meta MovieGen、Google Veo-3等最新进展凸显了业界与学界对统一音视频架构的关注。然而，该领域研究仍较为分散，任务多样、分类不一致、评估方法各异，阻碍了系统化比较与知识整合。本综述首次从大模型视角全面回顾音频-视觉智能，建立了统一的任务分类体系，涵盖理解、生成与交互三大方向，并综合了模态标记化、跨模态融合、自回归与扩散生成、大规模预训练等核心方法。同时，研究梳理了代表性数据集、基准与评估指标，指出同步性、空间推理、可控性与安全性等开放挑战。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

参数高效的多视角技能熟练度估计：从判别式分类到生成式反馈

评估人的动作完成质量（熟练度）对教学、康复等领域至关重要，但其挑战在于细微的时空差异分布于多视角视频中。本文针对Ego-Exo4D数据集提出三种创新方法：SkillFormer采用参数高效的判别式架构实现选择性多视角融合；PATS通过保留基础动作的局部密集片段来改进时序采样；ProfVLM则将任务重构为条件语言生成，通过门控跨视角投影器和紧凑语言模型，同时输出熟练度标签与专家风格反馈。这些方法仅需比视频Transformer基线少20倍的可训练参数和少3倍的训练周期，即达到最优准确率，推动了该任务从封闭集分类向可解释反馈生成的范式转变。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

APEX：面向AI生成音乐的大规模多任务美学感知流行度预测框架

APEX是首个面向AI生成音乐的大规模多任务学习框架，旨在联合预测流行度与美学质量。该框架基于Suno和Udio平台的21.1万首歌曲（约1万小时音频）训练，利用自监督音乐理解模型MERT提取音频嵌入，同时预测基于参与度的流行度指标（播放量与点赞数）以及五个感知美学维度。在包含11个未见生成系统的Music Arena数据集上进行分布外评估发现，加入美学特征能持续提升人类偏好预测准确性，表明所学表征在不同生成架构间具备强泛化能力。美学质量与流行度共同揭示了AI生成音乐的互补价值。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

反思推理密集型检索：在智能体搜索系统中评估与提升检索器

推理密集型检索旨在为下游推理提供证据支持，而非仅匹配主题相似性，这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足，研究发布了BRIGHT-Pro专家标注基准，为每个查询扩展了多维度黄金证据，并在静态与智能体搜索两种协议下评估检索器。同时，研究构建了RTriever-Synth合成语料库，通过生成互补正例和正例条件硬负例，对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明，维度感知与智能体评估能揭示标准指标所掩盖的检索行为，而RTriever-4B相比其基础模型取得了显著提升。

arXivMCP/工具检索增强推理

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

RLDX-1技术报告

为提升视觉-语言-动作模型在复杂现实任务中的功能覆盖，研究团队推出通用机器人策略RLDX-1。该模型基于多流动作变换器架构，整合运动感知、记忆决策与物理传感等异构模态，并辅以合成罕见场景数据、仿人操作学习流程及实时推理优化等系统设计。在仿真与真实测试中，RLDX-1全面超越前沿模型π_{0.5}和GR00T N1.6，尤其在ALLEX人形机器人任务上取得86.8%的成功率，显著高于对照模型的约40%，标志着其在接触密集型动态灵巧操作领域取得关键进展。

智能体具身智能多模态论文/研究

推荐理由：在 ALLEX 人形任务上把成功率从 40% 拉到 86.8%，RLDX-1 证明了多模态流架构对灵巧操作的价值，做机器人的同学可以重点关注一下。

08:00

HuggingFace Daily Papers（社区热门论文）

59

Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏框架

针对流式视频扩散模型的分布匹配蒸馏方法普遍均等对待所有输出，限制了质量提升。Stream-R1框架提出统一的奖励引导机制，从两个层面自适应重加权蒸馏目标：在序列间，依据预训练奖励分数对损失进行重缩放，让高可靠性序列主导优化；在序列内，利用同一奖励模型的反向传播生成像素级时空权重，将优化集中于预期增益最大的区域和帧。该方法在标准基准测试中，于视觉质量、运动质量和文本对齐方面均持续优于基线，且无需改变架构或增加推理开销。

多模态视频论文/研究