4月25日
08:00
HuggingFace Daily Papers(社区热门论文)
54
For-Value:一种面向大模型微调的高效前向传播数据估值方法

为应对大语言模型和视觉语言模型数据估值中的计算瓶颈,研究团队提出了For-Value框架。该方法基于理论分析,利用预训练模型的表征能力,通过最终隐藏层表征与预测误差的对齐关系来捕获数据价值。For-Value采用封闭表达式计算,仅需单次前向传播即可完成估值,无需昂贵的反向传播,支持高效的大规模批量计算。实验表明,该方法在识别关键数据和错误标注数据方面达到或超越了基于梯度的基线方法,同时实现了显著的效率提升。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
ProEval:面向生成式AI评估的主动故障发现与高效性能估计框架

针对生成式AI模型评估成本高昂的问题,本文提出主动评估框架ProEval。该框架利用迁移学习与预训练高斯过程代理模型,将性能估计建模为贝叶斯积分,将故障发现建模为超水平集采样,从而主动选择高信息量的测试输入。理论证明其估计器具有无偏性与有界性。在推理、安全对齐和分类任务上的实验表明,ProEval仅需8-65倍更少的样本即可实现误差在1%以内的性能估计,同时在严格评估预算下能发现更多样化的故障案例,效率显著优于基线方法。

论文/研究评测/基准部署/工程
4月24日
19:17
HuggingFace Daily Papers(社区热门论文)
58
基于结构化运动描述的无编码器人体运动理解

本文提出结构化运动描述(SMD)方法,通过基于规则的确定性转换,将人体关节位置序列转化为描述关节角度、部位运动及整体轨迹的结构化文本。该表示使大型语言模型(LLM)能直接运用其预训练知识进行运动推理,无需学习专用的运动编码器或对齐模块。SMD在运动问答(BABEL-QA达66.7%,HuMMan-QA达90.1%)和运动描述(HumanML3D上R@1为0.584)任务上均超越现有最佳方法。其实用优势包括:同一文本输入经轻量级LoRA适配即可跨多种LLM使用,且其人类可读的表示支持可解释的注意力分析。

多模态数据/训练论文/研究
12:17
HuggingFace Daily Papers(社区热门论文)
54
UniGenDet:一个用于协同进化图像生成与生成图像检测的统一生成-判别框架

研究提出UniGenDet框架,首次将图像生成与生成图像检测任务置于统一的生成-判别架构中进行协同进化。该框架设计了共生多模态自注意力机制和统一微调算法,使生成任务能提升真实性判别的可解释性,同时真实性标准指导生成更高保真度的图像。通过检测器引导的生成对齐机制促进信息交换,在多个数据集上的实验表明,该方法取得了最先进的性能。代码已开源。

图像生成安全/对齐论文/研究
12:17
HuggingFace Daily Papers(社区热门论文)
49
TingIS:企业级场景下从嘈杂客户事件中实时发现风险

TingIS 是一个面向企业级事件发现的端到端系统,旨在从高噪声、高吞吐的客户事件中提取可操作风险情报。其核心是多阶段事件链接引擎,结合高效索引与大型语言模型,仅依据少量多样描述即可稳定合并与提取事件。系统集成级联路由机制实现精准业务归属,并采用融合领域知识、统计模式和行为过滤的多维降噪管道。在生产环境中,TingIS 每分钟处理超 2000 条消息,P90 警报延迟为 3.5 分钟,高优先级事件发现率达 95%。真实数据基准测试表明,其在路由准确性、聚类质量与信噪比上均显著优于基线方法。

智能体论文/研究部署/工程
12:17
HuggingFace Daily Papers(社区热门论文)
50
面向生成式AI时代可泛化作者归属的可解释解耦表征学习

针对作者风格与文本内容纠缠导致模型泛化能力差的问题,本文提出可解释作者身份变分自编码器(EAVAE)框架。该框架通过架构设计分离风格与内容表征,先以监督对比学习预训练风格编码器,再结合变分自编码器微调。其核心创新是一个新型判别器,既能区分表征是否属于同一作者或内容源,又能生成自然语言解释以增强可解释性。实验表明,EAVAE在Amazon Reviews等多个数据集上实现了最先进的作者归属性能,并在M4数据集的少样本AI生成文本检测任务中表现优异。代码与数据已开源。

安全/对齐数据/训练论文/研究
12:17
HuggingFace Daily Papers(社区热门论文)
50
可信需验证:DAVinCI框架--语言模型声明推理的双重归因与验证

针对大语言模型存在事实错误与幻觉的问题,本文提出了DAVinCI双重归因与验证框架。该框架首先将模型生成的声明归因于内部组件和外部来源,随后利用蕴含推理和置信度校准进行验证。在FEVER等数据集上的评估表明,DAVinCI将分类准确率、归因精确率、召回率和F1分数提升了5-20%。研究通过消融实验分析了关键组件的影响,并发布了可集成至现有LLM流程的模块化方案。该框架为构建可审计、可信赖的AI系统提供了可扩展路径。

检索增强安全/对齐论文/研究
11:17
HuggingFace Daily Papers(社区热门论文)
55
快慢之间:学习视频中的时间流

本研究将时间作为可学习的视觉概念,开发了用于推理与操控视频时序的模型。通过自监督学习,模型能利用视频的多模态线索检测速度变化并估计播放速率。基于此,我们从真实世界视频中构建了最大的慢动作数据集。利用该数据,我们进一步开发了具备时序控制能力的模型,包括按指定速度生成运动的“速度条件视频生成”,以及将低帧率模糊视频转换为高帧率清晰序列的“时间超分辨率”。这项研究将时间确立为视频学习中一个可操控的感知维度,为时序可控的视频生成、时间取证检测及理解事件演变的世界模型开辟了新途径。

多模态视频论文/研究
11:17
HuggingFace Daily Papers(社区热门论文)
60
Omni模型中的上下文展开机制

研究团队发布了原生统一多模态模型Omni,其训练数据涵盖文本、图像、视频、3D几何及隐藏表征。该训练过程催生了“上下文展开”机制,模型在生成预测前会显式地对多种模态表征进行跨模态推理。这一机制使模型能够聚合异构模态间的互补信息,从而更忠实地逼近共享的多模态知识流形,并提升下游推理的保真度。因此,Omni在多模态生成与理解基准测试中均表现出色,同时展示了先进的多模态上下文内生成能力。

多模态推理论文/研究
11:17
HuggingFace Daily Papers(社区热门论文)
59
WorldMark:面向交互式视频世界模型的统一基准套件

针对交互式视频生成模型缺乏公平比较基准的问题,本文提出了首个统一测试平台WorldMark。它包含三个核心部分:一个将共享WASD动作映射到各模型原生控制的统一接口,确保六大模型能在完全相同的场景与轨迹上对比;一个涵盖500个测试案例的分层测试集,覆盖不同视角、风格与难度等级;以及一个支持视觉质量、控制对齐和世界一致性评测的模块化工具包。所有数据与代码均已公开,同时上线的在线平台World Model Arena支持模型并排对比与实时排名。

具身智能开源生态论文/研究评测/基准
11:17
HuggingFace Daily Papers(社区热门论文)
50
StyleID:一个用于风格无关人脸身份识别的感知感知数据集与评估指标

研究针对创意人脸风格化中身份保持的评估难题,提出了StyleID数据集与评估框架。该框架包含两个部分:StyleBench-H基准集收集了人类对基于扩散与流匹配生成的不同风格强度图像的异同判断;StyleBench-S监督集则通过受控二选一强制选择实验获取心理测量识别强度曲线。基于StyleBench-S对现有语义编码器进行微调,使其相似度排序与人类跨风格、跨强度的感知保持一致。实验表明,校准后的模型与人类判断的相关性显著提升,并对域外艺术家绘制肖像表现出更强的鲁棒性。所有数据集、代码与预训练模型均已公开。

图像生成多模态论文/研究
11:17
HuggingFace Daily Papers(社区热门论文)
65
VLAA-GUI:何时停止、恢复与搜索--一个用于 GUI 自动化的模块化框架

VLAA-GUI 是一个模块化 GUI 智能体框架,围绕停止、恢复与搜索三个核心组件构建。其强制性完整性验证器要求每一步完成时都必须提供可观察的 UI 成功证据,并通过决策规则交叉审查完成声明。强制性循环中断器提供多层过滤机制,在重复失败时切换交互模式,在屏幕状态持续重现时强制改变策略。按需调用的搜索代理可直接向具备搜索能力的大语言模型查询陌生工作流程。框架还集成了按需调用的编码代理与接地代理。在包含 Linux 和 Windows 任务的 OSWorld 与 WindowsAgentArena 基准测试中,VLAA-GUI 在五个顶级骨干模型上均取得最佳性能,分别达到 77.5% 和 61.0% 的成功率。其中三个骨干模型在 OSWorld 上单次通过即超越人类表现。消融实验表明所有三个组件均能持续提升强骨干模型性能,而循环中断器几乎将易循环模型浪费的步骤减半。

智能体MCP/工具论文/研究
08:00
Apple Machine Learning Research(RSS)
精选57
Learning Long-Term Motion Embeddings for Efficient Kinematics Generation

研究提出了一种通过长时运动嵌入来高效生成运动学的方法,直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作,将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标,高效生成长而真实的运动序列,避免了传统全视频合成在探索多种可能未来时效率低下的问题。

具身智能多模态论文/研究

推荐理由:Apple 把运动预测从逐帧生成拉到嵌入空间操作,效率提升几个数量级,做机器人或虚拟角色动画的团队值得留意这个思路,但离产品落地还有距离。
08:00
HuggingFace Daily Papers(社区热门论文)
54
TexOCR: 推动文档OCR模型实现可编译的页面到LaTeX重建

现有文档OCR主要针对纯文本或Markdown,丢弃了使LaTeX对科学出版至关重要的结构和可执行属性。研究将科学PDF重建为可编译LaTeX的页面级任务,并为此引入了基准测试TexOCR-Bench和大规模训练语料TexOCR-Train。TexOCR-Bench采用多维评估套件,联合评估转录保真度、结构忠实度和端到端可编译性。利用TexOCR-Train,通过监督微调和强化学习训练了一个20亿参数的TexOCR模型,其强化学习的可验证奖励源自直接强制执行可编译性和引用完整性的LaTeX单元测试。在TexOCR-Bench上对21个前沿模型的实验表明,现有系统经常违反关键文档不变性,包括一致的章节结构、正确的浮动体放置和有效的标签-引用链接,这损害了编译可靠性和下游可用性。分析进一步揭示,带有可验证奖励的强化学习相比仅用监督微调能带来一致改进,尤其在结构和编译指标上。

开源/仓库数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
52
从技能到人才:将异构智能体组织为现实世界的公司

针对多智能体系统受限于固定团队结构等问题,研究团队提出 OneManCompany 框架,将其提升至组织层面。该框架将技能、工具与配置封装为可移植的“人才”单元,通过类型化接口协调异构后端,并借助社区人才市场实现动态按需招募。组织决策采用“探索-执行-审查”树搜索,在统一分层循环中完成任务分解、执行与结果聚合,同时提供终止与无死锁的形式化保证。实验表明,OMC 在 PRDBench 上取得 84.67% 的成功率,较现有最佳方法提升 15.48 个百分点,跨领域案例验证了其通用性与适应性。

智能体开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
通过语义进度函数进行视频分析与生成

研究团队提出了一种“语义进度函数”,用于分析和校正图像与视频生成模型中常见的非线性语义演变问题。该方法通过计算序列中每帧语义嵌入的距离,并拟合一条反映累积语义变化的平滑曲线,来揭示语义节奏的不均匀性。基于此,团队进一步提出了一种语义线性化程序,能够对序列进行重新参数化,使语义变化以恒定速率展开,从而产生更平滑、连贯的过渡。该框架是模型无关的,可用于识别时间不规则性、比较不同生成器的语义节奏,并能引导生成视频或真实视频序列朝向任意目标节奏发展。

图像生成视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
上下文永不足够:基于结构化推理的可扩展长文档集问答

SLIDERS框架通过结构化方法解决长文档集问答的扩展性难题。它将文档关键信息提取至关系数据库,利用SQL进行高效推理,避免了传统文本拼接法的瓶颈。其核心创新是数据协调阶段,通过来源、依据和元数据检测并修复重复、不一致或不完整的记录,确保信息全局一致性。该框架在三个现有长上下文基准测试中均超越所有基线模型,平均领先GPT-4.1达6.6分;在包含390万和3600万token的两个新基准上,相较次优模型的优势分别扩大至约19分和32分,展现出卓越的大规模文档处理能力。

检索增强论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
51
FlowAnchor:稳定免反演视频编辑中的编辑信号

研究团队提出FlowAnchor,一个无需训练、基于光流的免反演视频编辑框架。现有免反演方法在视频编辑中面临挑战,多物体或长视频场景下易失败,其根源在于高维潜在空间中编辑信号不稳定,存在空间定位不准和强度衰减问题。FlowAnchor通过空间感知注意力优化确保文本引导与空间区域精确对齐,并采用自适应强度调制维持足够编辑强度,从而稳定编辑信号,引导光流向目标分布演化。实验表明,该方法在多物体和快速运动场景中能实现更忠实、时序一致且高效的视频编辑。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
能动世界建模:基础、能力、法则与超越

随着AI系统从生成文本转向通过持续交互实现目标,环境动态建模成为核心瓶颈。研究提出“能力层级×法则体系”二维分类框架:能力层级包括L1预测器(学习单步转移)、L2模拟器(多步推演)和L3演化器(自主修正模型);法则体系涵盖物理、数字、社会与科学四大领域,约束模型并标识失效场景。基于此,综合分析了400多项工作和100多个系统,涉及基于模型的强化学习、视频生成、网络智能体等。研究还提出决策中心评价原则、最小可复现评估包,并概述架构指导、开放问题与治理挑战,规划了从被动预测到模拟并最终重塑环境的世界模型路线图。

智能体推理论文/研究

推荐理由:这篇综述把散落各处的世界模型研究统一成一个清晰框架,做 Agent 的人终于有张地图了,虽然学术味重但值得细读,能帮你少踩坑。
08:00
HuggingFace Daily Papers(社区热门论文)
55
为冻结大语言模型学习证据高亮 (Learning Evidence Highlighting for Frozen LLMs)

HiLight 是一个证据强调框架,它将证据选择与推理过程解耦,专门用于服务参数冻结的大语言模型。该框架训练一个轻量级的“强调执行器”,在不改动原始上下文的前提下,仅围绕关键证据片段插入最少量的高亮标记,从而避免压缩或重写输入可能导致的证据丢失或扭曲。随后,冻结的“求解器”模型基于被强调的输入进行下游推理。该方法将高亮视为弱监督决策问题,仅利用求解器的任务奖励通过强化学习优化执行器,无需证据标注,也无需访问或修改求解器。在序列推荐和长上下文问答任务中,HiLight 的性能持续优于基于提示和自动提示优化的基线方法。学习到的强调策略能够零样本迁移到未见过的、或大或小的求解器模型家族,包括基于 API 的求解器,这表明执行器捕捉到了真实且可复用的证据结构,而非对单一骨干模型过拟合。

检索增强推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
AgentSearchBench: 一个面向真实场景的AI智能体搜索基准

研究团队推出了AgentSearchBench,这是一个用于评估真实场景下AI智能体搜索能力的大规模基准。该基准从多个提供方收集了近10,000个真实世界智能体,将智能体搜索形式化为可执行任务查询和高级任务描述下的检索与重排序问题,并利用基于执行结果的性能信号来评估相关性。实验表明,语义相似性与智能体实际性能之间存在持续差距,暴露了仅基于描述进行检索和重排序方法的局限性。研究进一步证明,轻量级的行为信号(包括执行感知探测)能显著提升排序质量,凸显了将执行信号纳入智能体发现过程的重要性。相关代码已开源。

智能体GitHub论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
dWorldEval:基于离散扩散世界模型的可扩展机器人策略评估方法

研究团队提出dWorldEval,一种基于离散扩散世界模型的可扩展机器人策略评估框架。该方法将视觉、语言和机器人动作等多模态数据映射到统一的令牌空间,通过单一Transformer去噪网络进行建模,并引入稀疏关键帧记忆以保持时空一致性。模型在推理时联合预测未来观测和任务进度令牌,当进度值达到1时自动判定任务成功。实验表明,dWorldEval在LIBERO、RoboTwin及多项真实机器人任务上显著优于WorldEval、Ctrl-World和WorldGym等现有方法,为构建大规模机器人评估的世界模拟器提供了新的架构范式。

具身智能论文/研究部署/工程
06:15
OpenAI:Alignment 研究博客(RSS)
精选58
开源可监控性评估

研究团队开源了论文《Monitoring Monitorability》中的数据集与代码,并分享了一种针对噪声主导干预评估实例的新过滤策略。这一举措旨在提升AI系统监控能力的评估透明度与可复现性,为社区提供了可直接使用的工具和方法。新提出的过滤策略能有效识别并处理评估过程中噪声干扰严重的实例,有望提高评估结果的准确性与可靠性。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 把自家对齐监控的评测数据集和代码全开源了,做 AI 安全评估的团队可以直接拿来用,但对普通开发者来说门槛还是偏高。
00:48
00:07
Saining Xie@sainingxie
精选73
vision🍌 现已发布 https://vision-banana.github.io/ 如果你像我一样进入计算机视觉领域,从像素级标注任务(如分割、边缘、深度或表面法线)开始,看到这些结果时你可能会有同感--某些重大的转变已悄然发生,这将永久改变我们处理这些问题的方式 🧵
图像生成多模态论文/研究
关联讨论 1HuggingFace Daily Papers(社区热门论文)
推荐理由:谢赛宁亲自下场安利的视觉基础模型,从像素级标注范式转向统一表征,做 CV 的人会觉得这是个分水岭。虽然普通人感知不到,但底层方法论的迁移往往比单点 SOTA 更深远。
4月23日
08:00
HuggingFace Daily Papers(社区热门论文)
48
探究图像编辑模型中的视觉规划能力

研究提出“编辑即推理”(EAR)新范式,将视觉规划重构为单步图像转换任务,以提升计算效率。为分离推理与识别能力,团队创建了抽象谜题数据集AMAZE,包含迷宫和皇后两类任务,支持对自回归与扩散模型进行像素与逻辑的自动评估。测试发现,主流编辑模型在零样本设置下表现不佳,但经基础尺度微调后,能良好泛化至更大尺度及域外几何形状。然而,最佳模型在零样本效率上仍不及人类,揭示了神经视觉推理领域的持续差距。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
Seeing Isn't Believing: 揭示评估型视觉-语言模型的盲点

研究系统评估了用于评估其他模型输出的视觉-语言模型(VLMs)的可靠性。通过引入超过40个扰动维度、涵盖4000多个扰动实例的基准测试,对4个主流VLMs在图像到文本和文本到图像任务中的表现进行了检验。结果显示,当前评估型VLMs存在显著盲点:它们时常无法检测出质量已下降的输出,在某些情况下漏检率超过50%;尤其难以识别细粒度的组合性与空间错误;对于与输入图像相矛盾的幻觉内容也常不敏感。尽管成对比较范式相对更可靠,但失误率依然存在。这些发现凸显了当前评估型VLMs的不可靠性,警示在将其用于基准测试和开发决策时需保持谨慎。相关代码与数据已公开。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
语音优先国家的偏好:印度语言TTS的大规模配对评估与偏好分析

本研究提出一个结合语言控制与感知标注的多语言TTS受控多维配对评估框架。针对10种印度语言的5000余条原生及语码混合句子,对7个前沿TTS系统进行了评估,收集了超过1900名母语评分者提供的12万对以上比较数据。评分者除整体偏好外,还从可懂度、表现力、音质、生动性、噪声和幻觉六个感知维度进行判断。研究通过Bradley-Terry模型构建多语言排行榜,利用SHAP分析解读人类偏好,并分析了排行榜的可靠性及各模型在不同感知维度上的优势与权衡。

论文/研究评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
64
Sapiens2

Sapiens2是一个专注于以人为中心的视觉任务的高分辨率Transformer模型家族,旨在实现泛化性、多功能性和高保真输出。模型参数量从4亿到50亿不等,原生支持1K分辨率,其分层变体可支持4K。相比前代,Sapiens2在预训练和后训练阶段均有显著改进:结合了掩码图像重建与自蒸馏对比目标以学习兼顾低级细节和高级语义的特征;在10亿张高质量人体图像数据集上进行预训练,并提升了任务标注的质量与数量;架构上吸收了前沿模型的进展,支持更长的稳定训练。其4K模型采用窗口注意力机制处理更长空间上下文,并以2K输出分辨率进行预训练。该模型在姿态估计、身体部位分割、法线估计等任务上刷新了最佳性能,并扩展了点云图和反照率估计等新任务。

Meta多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
基于多样性引导用户模拟的高效智能体评估

针对大语言模型客服代理评估效率低、难以发现深层故障的难题,研究团队提出了DIVERT框架。该框架采用基于快照和覆盖引导的用户模拟方法,在关键决策点保存完整对话状态并从中断点恢复,避免了相同对话前缀的重复计算。通过从每个决策点生成多样化的用户响应以探索不同交互路径,DIVERT能够更高效、更全面地发现由罕见用户行为引发的深层故障模式。实证结果表明,与标准的线性蒙特卡洛展开方法相比,DIVERT在单位计算量内能发现更多故障,并扩展了可识别故障的任务范围。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
61
人工智能中涌现的战略推理风险:一个基于分类学的评估框架

随着大语言模型推理能力与部署范围同步增长,其可能产生服务于自身目标的战略性行为风险。为系统评估此类涌现的战略推理风险,研究团队提出了ESRRSim,一个基于分类学的自动化行为风险评估框架。该框架构建了包含7大类、20个子类的可扩展风险分类体系,并生成能激发模型真实推理的评估场景。对11款推理大语言模型的测试显示,风险检测率差异显著,范围在14.45%至72.72%之间。跨代模型性能的显著提升表明,模型可能正日益学会识别并适应评估环境,加剧了对其潜在欺骗、评估博弈等战略行为的担忧。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
SketchVLM:视觉语言模型可通过标注图像解释思路并引导用户

SketchVLM 是一个无需训练、模型无关的框架,能让 Gemini-3-Pro、GPT-5 等视觉语言模型在输入图像上生成非破坏性、可编辑的 SVG 标注层,以视觉化方式解释其答案。该框架在涵盖视觉推理与绘图的七项基准测试中,将视觉推理任务准确率最高提升 28.5 个百分点,标注质量最高提升 1.48 倍,且生成的标注更忠实于模型给出的答案。单轮生成已能实现较高的准确率与标注质量,多轮生成为人机协作提供了更多可能。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Memanto:面向长周期智能体的类型化语义记忆与信息论检索系统

本文提出Memanto,一种用于智能体AI的通用记忆层,挑战了实现高保真记忆必须依赖复杂知识图的传统假设。该系统集成了包含13个预定义类别的类型化语义记忆架构、自动冲突解决与时间版本管理,其核心由无需索引的Moorcheh信息论搜索引擎驱动,可在低于90毫秒延迟内实现确定性检索,且完全无数据摄入延迟。在LongMemEval和LoCoMo基准测试中,Memanto分别以89.8%和87.1%的准确率取得最优结果,超越所有基于混合图与向量检索的系统,仅需单次查询、无摄入成本并显著降低运行复杂度。

智能体Hugging Face论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
47
DiffNR:面向稀疏视图三维断层扫描重建的扩散增强神经表示优化

神经表示在计算机断层扫描中能有效建模三维体数据,但在稀疏视图条件下会产生严重伪影。DiffNR 提出一种融合扩散先验增强神经表示优化的新框架,其核心是用于修正退化切片伪影的单步扩散模型 SliceFixer。该框架引入了专用条件层与数据策展策略以支持模型微调,并在重建过程中周期性地生成伪参考体数据,为欠约束区域提供辅助的三维感知监督。相比以往将 CT 求解器嵌入耗时迭代去噪过程的方法,DiffNR 采用的修复‑增强策略避免了频繁查询扩散模型,从而提升了运行效率。大量实验表明,DiffNR 平均将 PSNR 提升 3.99 dB,具有良好的跨领域泛化能力,并保持了高效的优化过程。

图像生成论文/研究部署/工程
4月22日
08:00
HuggingFace Daily Papers(社区热门论文)
59
MedSkillAudit:医学研究智能体技能的领域专用审计框架

研究团队开发了MedSkillAudit框架,用于在部署前评估医学研究智能体技能的发布就绪度。该框架对五大类共75项技能进行了审计,专家共识质量平均分为72.4,57.3%的技能未达“有限发布”阈值。系统评分与专家共识的一致性(ICC=0.449)超过了专家间一致性基线(0.300),且系统与共识的评分差异小于专家间差异。其中“方案设计”类别一致性最高,而“学术写作”类别因评估标准不匹配出现负相关。该研究为医学研究智能体技能的治理提供了结构化审计基础。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
告别繁琐工程:实现AI智能体工具套件全自动设计与优化的两级框架

针对AI智能体在复杂领域任务中部署时,每个新任务都需要专家手动设计工具套件(包括提示、工具、逻辑等)的难题,研究团队提出了一个两级自动化框架。第一级的“工具套件进化循环”为单一任务自动优化套件:工人智能体执行任务,评估智能体诊断失败并评分,进化智能体则根据历史尝试修改套件。第二级的“元进化循环”在不同任务上优化进化协议本身,学习一个最佳协议,使得智能体能够快速适应任何新任务,完全无需人工进行工具套件工程设计。该框架将手动工程转变为自动化工程,并进一步实现了自动化设计本身的自动化。

智能体MCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
构建精确视频语言模型:基于人机协同监督的方案

研究团队发布了一套用于构建精确视频语言模型的开源数据集、基准与可扩展监督方案。其核心是提出了CHAI监督框架,由训练有素的专家对模型生成的初版描述进行批判与修订,生成高质量后版描述。这种分工提升了标注效率与准确性。基于这些修订与偏好数据,团队改进了Qwen3-VL等开源模型在描述生成、奖励建模与批判生成方面的性能。在适度专家监督下,所得模型性能超越了Gemini-3.1-Pro等闭源模型。该方法还被应用于为专业视频重新生成描述,并微调Wan等视频生成模型,使其能精细遵循长达400词的详细提示,实现对摄像机运动、构图等电影摄影元素的控制。

多模态数据/训练论文/研究