4月30日
02:43
LMSYS:Blog(Chatbot Arena 团队)
精选74
秒级更新万亿参数--大规模分布式强化学习中的点对点权重传输技术

LMSYS团队针对SGLang中的强化学习工作负载,提出了一种基于RDMA的点对点权重更新机制,作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输,将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒,提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余,允许推理服务器更快恢复rollout过程,且兼容所有主流开源模型。

智能体开源生态论文/研究部署/工程

推荐理由:LMSYS 把分布式 RL 训练的权重同步从 NCCL 广播改成 RDMA P2P,1T 参数模型传输快了 7 倍,做大规模 RL infra 的团队该认真看看这个工程方案。
4月29日
22:43
elvis@omarsar0
59
智能体缰绳工程:实现AI智能体核心组件的可观测自动化进化

针对AI智能体开发中依赖人工调试、成本高昂且脆弱的“缰绳”设计问题,研究者提出了“智能体缰绳工程”框架。该框架通过三层设计实现可观测的进化:将组件视为可回滚的文件、从海量运行轨迹中提炼经验证据、将决策转化为可由任务结果验证的预测。每次修改都成为可验证或回滚的“合约”。实验表明,该框架在十次迭代内将Terminal-Bench 2的pass@1分数从69.7%提升至77.0%,超越人工设计与基线方法。进化后的缰绳能跨模型迁移并提升性能,同时在SWE-bench上减少12%的令牌消耗,为智能体系统的核心组件提供了首个自动化、可靠的优化方案。

智能体arXivMCP/工具编码
19:34
IT之家(RSS)
58
研究团队:自2022年ChatGPT诞生以来,如今互联网新增内容中35%均由AI生成

英国帝国理工学院、斯坦福大学及互联网档案馆的研究显示,自ChatGPT推出至2025年中,全球互联网约35%的新增内容带有AI生成痕迹,占比从近零快速跃升。研究验证了AI内容存在“语义收缩”和“情绪单一且正面”的现象,其语义相似度比人工内容高33%,正面情绪评分高107%。但其他如事实质量下降等负面影响未获统计支持。目前,生成式AI主要影响了文字多样性和情绪表达,对信息可信度的冲击尚未明确证实。

数据/训练现象/趋势
16:38
Rohan Paul@rohanpaul_ai
63
AMD提出长上下文混合LLM架构HyLo,实现低成本能力升级

AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

推理论文/研究
14:38
HuggingFace Daily Papers(社区热门论文)
56
AutoResearchBench:评估AI智能体在复杂科学文献发现中的基准

为评估AI智能体在自主科学研究中的文献发现能力,研究者推出了AutoResearchBench基准测试平台。它包含两项任务:“深度研究”需通过多步探索定位特定论文;“广度研究”需全面收集满足条件的论文系列。该基准具有研究导向性、文献聚焦性和开放探索性三大特点,对智能体的科学理解与精细推理能力提出高要求。实验显示,即使最强大的大语言模型在深度研究任务上准确率仅为9.39%,在广度研究任务上的IoU指标仅为9.31%,凸显了任务的艰巨性。相关数据集与代码已开源。

智能体论文/研究评测/基准
14:38
HuggingFace Daily Papers(社区热门论文)
52
MAIC-UI:用生成式用户界面制作交互式课件

传统创建交互式STEM课件需要编程技能,而现有生成式AI工具存在生成静态、处理长文档困难、缺乏教学严谨性及修改耗时过长等问题。为此,我们提出了MAIC-UI,一个零代码创作系统,允许教育工作者从教科书、PPT和PDF快速创建并编辑交互式课件。该系统通过结构化知识分析与多模态理解确保教学严谨性,采用“生成-验证-优化”两阶段流程分离内容与视觉优化,并基于统一差异的增量生成技术实现点击定位编辑,将迭代周期缩短至10秒内。一项40人对照实验表明,该系统相比直接文本转HTML生成,显著减少了编辑迭代次数(4.9 vs. 7.0),并提升了易学性与可控性。在53名高中生参与的三个月课堂部署中,使用该系统的班级STEM成绩提升了9.21分,有效促进了学习自主性并缩小了成绩差距。

智能体教程/实践论文/研究
10:38
HuggingFace Daily Papers(社区热门论文)
60
递归多智能体系统

本研究将递归计算从单一模型扩展至多智能体系统,提出RecursiveMAS框架。该框架通过轻量级RecursiveLink模块连接异构智能体,形成协作循环,实现潜在思维生成与状态传递,并采用内外双循环算法进行全系统协同优化。理论分析表明其效率高于传统文本交互系统且训练稳定。在数学、科学、医学等9项基准测试中,该框架相比先进基线平均准确率提升8.3%,推理速度加快1.2–2.4倍,token使用量减少34.6%–75.6%。代码与数据已公开。

智能体数据/训练论文/研究
10:38
HuggingFace Daily Papers(社区热门论文)
51
DV-World:真实场景下的数据可视化智能体评测基准

针对现有基准在环境隔离、任务单一和意图假设完美等方面的局限,本文提出了DV-World基准。该基准包含260个任务,旨在真实工作流中评估数据可视化智能体。它涵盖三大领域:支持原生电子表格图表创建与诊断的DV-Sheet、要求跨编程范式重构可视化以适应新数据的DV-Evolution,以及通过模拟模糊需求测试主动意图对齐的DV-Interact。基准采用结合数值对齐与多模态大模型语义视觉评判的混合评估框架。实验表明,当前最先进模型整体表现不足50%,凸显其处理真实世界复杂挑战的能力存在严重缺陷。DV-World为引导智能体发展企业级综合专业知识提供了现实测试平台。

智能体编码论文/研究评测/基准
10:38
HuggingFace Daily Papers(社区热门论文)
54
通过技能图实现可扩展的终端任务合成

SkillSynth 是一个基于场景中介技能图的自动化终端任务合成框架,旨在解决终端智能体训练中高质量、多样化执行轨迹稀缺的问题。该方法首先构建大规模技能图,以场景作为中间过渡节点连接多样化的命令行技能;随后从图中采样路径作为真实工作流的抽象,并通过多智能体系统将其实例化为可执行任务。通过在图形采样的工作流路径上进行任务合成,SkillSynth 能够显式控制解决合成任务所需的最小执行轨迹的多样性。在 Terminal-Bench 上的实验验证了其有效性。此外,SkillSynth 合成的任务实例已用于训练 Hy3 Preview,提升了其在终端环境下的智能体能力。

智能体数据/训练论文/研究
10:38
HuggingFace Daily Papers(社区热门论文)
63
视频生成的系统性后训练框架

研究团队提出一个系统性后训练框架,旨在弥合大规模视频扩散模型预训练性能与实际部署需求之间的差距。该框架包含四个协同阶段:首先通过监督微调将基础模型转化为稳定的指令跟随策略;随后采用专为视频扩散定制的新型群组相对策略优化方法进行基于人类反馈的强化学习,以提升感知质量和时间连贯性;接着集成专用语言模型进行提示词增强以优化用户输入;最后通过推理优化提升系统效率。实验表明,该统一流程能有效减少常见伪影,显著提升可控性和视觉美感,同时严格遵守采样成本限制。

数据/训练视频论文/研究
10:38
HuggingFace Daily Papers(社区热门论文)
48
IAM: 身份感知的人体运动与形状联合生成

研究团队提出了一种身份感知的人体运动生成框架IAM,旨在解决现有文本驱动运动生成模型忽略身体形态对运动动态影响的问题。该框架通过多模态信号(自然语言描述和视觉线索)表征身份,并引入运动与形状联合生成范式,能同时合成运动序列和身体形状参数。实验在运动捕捉数据集和大规模真实世界视频上进行,结果表明该方法在保持高运动质量的同时,显著提升了运动真实感及运动与身份的一致性。

具身智能多模态论文/研究
10:38
HuggingFace Daily Papers(社区热门论文)
50
通过再生实现精修:扩大修改空间提升统一多模态模型的图像精修能力

针对当前统一多模态模型(UMMs)主要遵循的基于编辑(RvE)精修范式存在修改空间受限、指令描述粗略导致精修不完整的问题,本研究提出了一种基于再生(RvR)的新框架。RvR将精修任务重新定义为条件图像再生,其核心是依据目标提示词和初始图像的语义令牌进行整体图像再生,而非生成粗略的编辑指令并强制保留像素。这种方法突破了原有范式对修改空间的限制,实现了更完整的语义对齐。实验结果表明,RvR在多个基准测试上均取得显著性能提升:Geneval得分从0.78升至0.91,DPGBench从84.02提高到87.21,UniGenBench++则从61.53跃升至77.41。

图像生成多模态论文/研究
10:38
HuggingFace Daily Papers(社区热门论文)
55
互促学习:面向快速自回归音视频角色生成的双模式自演进框架

本文提出Mutual Forcing框架,用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练,先训练单模态生成器,再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型,将少步与多步生成集成于单一权重共享模型中,通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法,本方法仅需4至8步即可达到或超越基线性能,在效率与质量上均具优势。该方法无需额外双向教师模型,支持更灵活的训练序列长度,并可直接从真实配对数据中学习。

多模态视频论文/研究
10:38
HuggingFace Daily Papers(社区热门论文)
56
BARRED:通过非对称辩论合成训练定制策略护栏

BARRED框架仅需任务描述和少量未标注样本,即可生成忠实且多样的合成训练数据。该方法将领域空间分解为多个维度以确保全面覆盖,并采用多智能体辩论验证标签正确性,从而构建高质量训练语料。实验表明,基于此合成数据微调的小型语言模型,在多种定制策略任务上持续超越包括推理模型在内的先进专有大模型及专用护栏模型。消融研究证实,维度分解与辩论验证对确保数据多样性和标签保真度至关重要。该框架消除了对大量人工标注的依赖,为精准定制护栏提供了可扩展方案。

智能体安全/对齐论文/研究
08:33
IT之家(RSS)
52
突破 2 纳米工艺极限:DNA 生物晶体管实现分子级计算与存储双重突破

韩国科学技术院研究团队成功开发出一种基于DNA的生物晶体管,突破了传统硅基半导体2纳米的微型化极限。该技术利用间距仅0.34纳米的DNA分子,通过可逆组装与解组装响应外部信号,实现了分子层面的计算与信息存储双重功能,克服了传统DNA电路一次性使用的缺陷。这项模拟半导体晶体管原理的成果,有望应用于体内分子诊断装置,实时监测疾病信号,为生物计算与医疗技术开辟了新方向。研究已发表于《Science Advances》。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
HiL-Bench(人在回路基准测试):智能体知道何时该求助吗?

HiL-Bench 基准测试旨在评估智能体在任务信息不完整或模糊时,能否判断何时应自主执行、何时需向人类求助。该测试包含人为设置的障碍信息,核心指标 Ask-F1 综合衡量提问精准度与障碍召回率,以平衡过度提问与盲目猜测。评估显示,当前前沿模型在判断求助时机上存在普遍缺陷,其完整信息性能仅能恢复一小部分。失败模式主要体现为三种:过度自信未察觉信息缺口、虽检测到不确定性但仍持续出错、以及提出宽泛模糊的求助。通过基于 Ask-F1 的强化学习训练,一个 32B 模型在求助质量与任务通过率上均获得提升,且能力可跨领域迁移,表明判断力可通过训练改进。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
63
ComboStoc:扩散生成模型中的组合随机性

本文针对扩散生成模型中未被充分研究的组合复杂性问题,指出现有训练方案可能难以充分覆盖高维数据样本及其附加属性所构成的空间,从而限制模型性能。为此,我们提出了ComboStoc方法,通过构建充分利用组合结构的随机过程,显著加速了图像和3D形状等多种数据模态的网络训练。此外,该方法还支持在测试时生成过程中,为不同维度和属性使用异步时间步,从而实现对它们不同程度的灵活控制。代码已开源。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
更优模型,更快训练:用于单细胞基础模型的Sigmoid注意力机制

本研究提出将Sigmoid注意力作为Softmax注意力的直接替代方案,用于构建更稳定的生物基础模型。在六个单细胞数据集上的实验表明,Sigmoid注意力能提升25%的细胞类型分离度,改善细胞类型内聚性,并降低验证损失,同时训练速度提升高达10%。理论分析揭示,Sigmoid具有全局有界导数和对角雅可比结构,这缓解了Softmax的稠密耦合带来的不稳定性。在压力测试中,训练1.6亿参数模型时,Softmax出现梯度爆炸,而Sigmoid保持稳定。团队开源了高性能GPU内核TritonSigmoid,在H100上实现515 TFLOPS,性能超越现有方案,并原生支持生物序列所需的填充处理。

开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
Prox-E:通过基于基元的抽象实现细粒度3D形状编辑

研究团队提出Prox-E,一个无需训练即可实现细粒度3D控制的框架。该方法先将输入3D形状抽象为一组紧凑的几何基元,再利用预训练的视觉语言模型对该抽象进行基元层级的编辑指定,最终引导3D生成模型完成局部结构修改,同时严格保持物体未变化区域的原始身份。实验表明,该方法在身份保持、形状质量和指令遵循度上,均优于现有的基于2D的3D编辑器和需要训练的方法。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
Web2BigTable:面向互联网规模信息搜索与提取的双层多智能体LLM系统

Web2BigTable是一个支持广度和深度搜索的双层多智能体框架。上层编排器将任务分解为子问题,下层工作智能体并行求解。系统通过运行-验证-反思的闭环流程,利用持久化外部记忆联合改进任务分解与执行,并实现单智能体的自我进化。工作智能体通过共享工作空间协调,减少冗余探索、调和冲突证据并适应覆盖缺口。该系统在广度搜索基准WideSearch上达到新SOTA:Avg@4成功率为38.50(是第二名的7.5倍),行F1为63.53,项F1为80.12。在深度搜索基准XBench-DeepSearch上也取得73.0的准确率。代码已开源。

智能体搜索论文/研究
08:00
Apple Machine Learning Research(RSS)
精选57
Adaptive Thinking: 大型语言模型知道何时在潜在空间中思考

研究提出了一种名为“自适应思考”的新方法,使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准,当模型对简单问题已有高置信度答案时,会跳过显式推理步骤,直接生成最终答案。实验表明,在保持相同性能水平下,该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量,实现了更高效的计算最优推理。

推理论文/研究

推荐理由:苹果这篇论文用自一致性作为「要不要深度思考」的代理,把推理预算分配从玄学变成了可计算的优化问题,做推理加速的同行值得细读。
08:00
Apple Machine Learning Research(RSS)
精选56
DSO: 用于缓解偏见的直接引导优化

研究团队提出DSO方法,旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时,通过单一标量参数直接、实时地控制偏见缓解程度,实现无需重新训练的动态调整。实验表明,DSO能在偏见指标上实现高达90%的改善,同时将性能损失控制在10%以内,有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。

多模态安全/对齐论文/研究

推荐理由:Apple 这篇提出了一个直接操控生成方向的优化方法,把偏见缓解变成了可调节的旋钮,而不是一刀切地牺牲性能,做公平性研究的人可以仔细读一下。
08:00
HuggingFace Daily Papers(社区热门论文)
54
面向高效计算机使用代理的步骤级优化

现有计算机使用代理在长周期图形界面任务中因每一步都调用大型多模态模型而导致效率低下。此类任务轨迹具有高度异质性:多数步骤可由轻量策略可靠处理,而错误多集中于少数高风险时刻,表现为进度停滞与语义漂移。为此,本文提出一种事件驱动的步骤级级联框架,默认运行轻量策略,仅当轻量监测器识别到风险升高时才升级至强模型。该框架整合了停滞监测器与里程碑监测器,能根据交互进程自适应分配计算资源,将始终开启的前沿模型推理转变为按需调用。该模块化设计无需改变现有代理架构或重新训练大模型即可直接集成。

智能体arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
ViPO:大规模视觉偏好优化

针对现有开源视觉偏好数据集存在的冲突偏好、低分辨率等问题,研究团队提出Poly-DPO算法,通过多项式项动态调整模型置信度以增强抗噪性。为突破数据瓶颈,团队构建了大规模高质量数据集ViPO,包含百万级图像对与数十万视频对。实验表明,在高质量ViPO上,Poly-DPO最优配置会收敛至标准DPO,验证了数据质量;而在噪声数据集上,Poly-DPO相比Diffusion-DPO在SD1.5和SDXL模型上分别取得6.87和2.32的性能提升。研究证实,算法适应性与数据质量共同推动视觉偏好优化的规模化发展。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
合规性与合理性:大语言模型中推理可控性研究

本研究通过推理冲突视角,探讨大语言模型能否将归纳、演绎等基本推理模式与具体问题实例解耦。发现LLMs优先考虑合理性而非合规性,即使指令冲突也倾向任务适用推理。任务准确率不严格由合理性决定,模型依赖内部参数记忆且随规模增强。推理冲突可内部检测,置信度显著下降。实验显示推理类型从中后层线性编码,表明激活层面可控。通过机制干预,成功将模型导向合规,指令遵循率最高提升29%。这表明主动干预能有效解耦逻辑模式与数据,提升可控性、忠实度和泛化能力。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
长度价值模型:面向令牌级长度建模的可扩展价值预训练

长度价值模型(LenVM)是一个创新的令牌级框架,它将剩余生成长度预测转化为价值估计问题,通过为每个生成令牌分配恒定负奖励来获得密集、无偏且可扩展的监督信号。实验表明,LenVM能显著提升模型对生成长度的精确控制能力:在LIFEBench精确长度匹配任务中,它将一个7B模型的长度分数从30.9大幅提升至64.8,超越了前沿闭源模型。同时,该模型支持性能与效率的连续权衡,如在GSM8K上设定200令牌预算时,能保持63%的准确率,远超基线模型的6%。此外,LenVM能从提示开始预测总长度,并提供生成动态的可解释视图,展现了其作为通用长度建模框架的广泛潜力。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
基于RoundPipe在消费级多GPU上实现高效训练

针对消费级GPU服务器内存有限和PCIe互联慢的问题,研究团队提出了RoundPipe流水线调度方案。该方法通过将GPU视为无状态工作节点,以轮询方式动态分配计算阶段,打破了权重绑定限制,实现了接近零气泡的流水线。系统集成了优先级感知传输调度、细粒度事件同步协议与自动分层划分算法。在8块RTX 4090的服务器上测试表明,其对1.7B至32B模型的微调速度比现有最优基线快1.48至2.16倍,并能单机完成Qwen3-235B模型(31K序列长度)的LoRA微调。该工具已作为开源Python库发布。

开源生态论文/研究

推荐理由:RoundPipe 在消费级 GPU 上实现了近乎零气泡的流水线并行,能让 8 张 4090 跑起 235B 的 Qwen,还开源了代码。做模型训练又缺卡的人值得仔细读一下,说不定能省掉一张 A100。
08:00
HuggingFace Daily Papers(社区热门论文)
62
最后一篇人类撰写的论文:智能体原生研究制品

传统科学论文为追求线性叙事,舍弃了大量失败实验与分支路径,且描述与可执行细节间存在鸿沟,严重阻碍了AI智能体的理解与复现。为此,研究团队提出“智能体原生研究制品”(ARA)协议,以包含科学逻辑、可执行代码、探索图谱及证据层的机器可执行研究包取代传统论文。其生态系统由实时研究管理器、ARA编译器和原生评审系统支持。实验表明,ARA将问答准确率从72.4%提升至93.7%,复现成功率从57.4%提高至64.4%。保存的失败轨迹能加速扩展任务,但也可能限制高能力智能体跳出既有框架。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
协同进化策略蒸馏(CoPD)

研究提出协同进化策略蒸馏(CoPD),以解决混合RLVR的跨能力发散问题和传统OPD因行为模式差距导致的能力吸收不全问题。CoPD通过推动专家并行训练,并在每个专家的RLVR训练中引入双向OPD,使专家互为教师、协同进化,从而保持行为模式一致且知识互补。实验表明,CoPD能全面集成文本、图像和视频推理能力,性能显著优于混合RLVR和MOPD等基线,甚至超越领域专用专家。该方法可能启发新的训练扩展范式。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
大原子模型与语言模型的智能体融合加速超导体发现

研究团队提出名为ElementsClaw的智能体框架,通过协同大型原子模型与大型语言模型来加速材料发现。该框架利用微调自10亿参数原子模型Elements的工具进行原子尺度计算,并借助LLM进行高层语义推理,将材料发现转向集成化、人机交互模式。在超导体搜索中,该框架仅用28个GPU小时便筛选了240万种晶体,识别出6.8万个高置信度候选材料,将已知超导体空间扩大了数个数量级。它不仅成功识别出文献中隐藏的超导体,更发现了四种经实验验证的新型超导体,其中Zr3ScRe8和HfZrRe4的转变温度分别为6.8K和6.7K。

智能体arXivHugging Face论文/研究
07:38
Berryxia.AI@berryxia
66
微软World-R1唤醒视频模型3D理解能力

微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力,无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中,并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练,模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练,该技术被视为视频生成迈向真实世界模拟的关键一步。

Microsoft论文/研究
07:38
Berryxia.AI@berryxia
50
SATO实现从点云直接生成高质量3D网格

3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。

多模态论文/研究
06:41
elvis@omarsar0
62
从技能文本到技能结构

SKILL.md文件将调用接口、执行流程和工具副作用混合在自然语言中,导致技能发现和风险评估脆弱。新研究提出SSL三层类型化JSON表示:调度层处理调用信号,结构层管理执行场景,逻辑层定义原子动作和资源使用,基于Schank和Abelson的脚本理论。通过LLM规范化器转换现有文件,技能发现MRR从0.573提升至0.707,风险评估宏观F1从0.744提升至0.787。研究发布了6,184技能语料库、403任务查询和500风险标记技能,强调随着技能注册表扩展,需结构化表示以提升管理效率。

智能体MCP/工具开源/仓库论文/研究
05:38
HuggingFace Daily Papers(社区热门论文)
51
通过表示稳定性提升表格检索的鲁棒性

基于Transformer的表格检索系统将结构化表格扁平化为序列,导致即使语义不变,不同序列化格式(如CSV、HTML)也会产生显著差异的检索结果。研究将不同格式的嵌入视为共享语义的噪声视图,以其质心作为规范表示。质心平均法能有效抑制格式特异性变异,在多个检索模型的比较中优于单一格式。此外,研究引入轻量级残差瓶颈适配器,将单格式嵌入映射向质心目标,并施加协方差正则化。该适配器提升了多个稠密检索器的鲁棒性,但改进效果因模型而异,对稀疏检索提升较弱。相关代码与模型已开源。

检索增强论文/研究部署/工程
02:37
HuggingFace Daily Papers(社区热门论文)
50
用于认知-偶然不确定性分解的信度概念瓶颈模型

针对概念瓶颈模型(CBM)将认知不确定性与偶然不确定性混为一谈的问题,研究团队提出了CREDENCE框架。该框架将每个概念表示为概率区间,通过不同概念头之间的分歧量化认知不确定性,并训练一个专门的模糊性输出来估计偶然不确定性。实验证明,认知不确定性正相关于模型预测错误,而偶然不确定性则紧密跟踪标注者间的真实分歧。基于此分解,该方法能支持明确的决策:自动化处理低不确定性案例,优先收集高认知不确定性数据以改进模型,将高偶然不确定性案例转交人工审核,并在两者皆高时主动弃权。代码已开源。

安全/对齐推理论文/研究
02:10
宝玉@dotey
68
多校联合综述提出统一框架,厘清"世界模型"概念割裂问题

针对“世界模型”概念在强化学习、视频生成等不同社区含义割裂的问题,一篇由港科大、新加坡国立、牛津等多所高校联合发表的综述提出了“能力等级×领域法则”的二维统一框架。能力分为L1预测器、L2模拟器和L3进化器;领域涵盖物理、数字、社会和科学世界。综述发现,当前视频生成模型物理一致性差,LLM社会模拟存在行为偏差,而L3能力在自动化科学实验中最成熟。论文最后指出,神经网络隐式表示的规则在需要自我修正的L3阶段可能成为障碍,并引发了对世界模型终局形态的思考。

具身智能现象/趋势论文/研究