AIHOT

5月1日

10:14

HuggingFace Daily Papers（社区热门论文）

研究团队提出“规模化合成计算机”方法，以创建包含真实文件夹层级与丰富文件内容（如文档、表格）的可扩展计算机环境。基于每个合成计算机，系统运行长周期模拟：一个代理设定符合用户身份、需耗时约一个月完成的多项专业任务目标；另一代理则扮演用户，通过导航文件系统、与模拟协作者协作、生成专业文件等方式持续工作直至目标达成。初步实验中，团队创建了1000个合成计算机并运行模拟，每次模拟平均需超过8小时代理运行时间、跨越2000多个回合。模拟产生的丰富经验学习信号显著提升了代理在生产力评估中的表现，该方法有望扩展至数百万甚至数十亿合成用户世界，为长周期生产力场景中的智能体自我改进与强化学习提供基础。

智能体数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

异构科学基础模型协作

本研究提出Eywa异构智能体框架，以扩展语言中心的大模型系统至更广泛的科学基础模型。该框架通过为领域专用基础模型增加语言模型推理接口，使语言模型能指导非语言数据模态的推断，从而让预测性基础模型参与高层推理与决策。Eywa可作为单智能体流程的直接替代，或嵌入现有多智能体系统，并支持基于动态规划的跨模态任务协调。实验覆盖物理、生命及社会科学领域，结果表明Eywa能提升涉及结构化与领域专用数据的任务性能，并通过与专用模型的协作减少对纯语言推理的依赖。

智能体多模态论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

视觉生成的新时代：从原子映射到智能体世界建模的演进

当前视觉生成模型在写实性、指令跟随等方面进展显著，但在空间推理、长程一致性与因果理解上仍面临挑战。研究主张从外观合成转向智能视觉生成，即生成基于结构、动态和因果关系的合理内容。为此提出了一个五级分类体系，标志着从被动渲染器到交互式、世界感知生成器的根本转变。关键技术驱动力包括流匹配、统一的理解-生成模型、数据策展与后训练等。现有评估常因过度强调感知质量而高估进展，忽视了结构与时序缺陷。结合基准评测与真实场景测试，该路线图为推进下一代智能视觉生成系统提供了以能力为中心的视角。

智能体图像生成多模态论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

表征弗雷歇损失用于视觉生成

本研究提出FD-loss，通过将弗雷歇距离（FD）估计所需的大规模样本量与梯度计算的小批量解耦，首次将其有效优化为训练目标。该方法在不同表征空间中对基础生成器进行后训练，能持续提升样本视觉质量，并在Inception空间下使单步生成器在ImageNet 256x256上达到0.72的FID。FD-loss无需蒸馏或对抗训练，即可将多步生成器转化为高性能单步模型。研究同时发现，仅依赖Inception FID可能误导质量评估，因此提出了多表征度量指标FDr^k。这项工作推动了分布距离在生成模型的训练与评估中的进一步探索。

arXiv图像生成数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

Intern-Atlas：面向AI科学家的方法论演化图谱研究基础设施

针对现有以文档为中心的研究设施无法显式表征方法演进关系的问题，本文提出了方法论演化图谱Intern-Atlas。它从超103万篇AI论文中自动识别方法实体，推断其谱系关系与关键创新瓶颈，构建了一个包含941万余条有证据支撑语义边的可查询因果网络。研究还设计了自引导时序树搜索算法以追溯方法演进链条，经验证与专家标注结果高度一致。该图谱支持想法评估与自动生成等下游应用，为自动化科学发现提供了基础数据层。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于扩散策略的隐藏奖励恢复

本文提出EnergyFlow框架，通过参数化一个标量能量函数，将生成式动作建模与逆强化学习统一起来。该框架证明，在最大熵最优性下，通过去噪分数匹配学到的分数函数可恢复专家软Q函数的梯度，从而无需对抗训练即可提取奖励。理论分析表明，约束学习场为保守场能降低假设复杂性并收紧分布外泛化界限。实验显示，EnergyFlow在各种操作任务上实现了最先进的模仿性能，其提供的奖励信号在下游强化学习中优于对抗性IRL和基于似然的方法。这表明有效的奖励提取约束本身即是有益于策略泛化的归纳偏置。

arXivGitHub数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ResRL：通过负样本投影残差强化学习提升大语言模型推理能力

针对可验证奖励强化学习可能抑制生成多样性的问题，本文提出负样本投影残差强化学习框架。该方法通过理论分析，将负样本标记的隐藏表示投影到基于奇异值分解的低秩正子空间，并利用投影残差来调制负梯度，从而解耦正负响应间的相似语义分布。在涵盖数学、代码、智能体任务和函数调用的12个基准测试中，ResRL平均表现优于基线方法，尤其在数学推理上较负样本强化学习方法显著提升，实现了推理能力与生成多样性的协同优化。代码已开源。

智能体推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

医疗AI智能体训练环境与多轮强化学习稳定性研究

研究团队构建了覆盖10个临床领域、包含3600多项任务的Gymnasium兼容医疗AI训练环境。分析发现，现有多轮智能体强化学习方法易退化为冗长单轮独白，工具使用频率下降，问题源于稀疏最终奖励与连续临床轨迹的错配。为此，研究提出“轮次截断策略蒸馏”自蒸馏框架，利用梯度冻结的EMA教师模型在每轮对话提供密集的KL正则化。该方法在18项基准测试的10项中取得最佳性能，较非强化学习基线平均提升3.9个百分点，实现了更快早期收敛、可控响应长度和持续的多轮工具使用。

智能体检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越SFT到RL：基于黑盒在线策略蒸馏的多模态RL预对齐方法

针对大型多模态模型后训练中SFT阶段引发的分布漂移问题，研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间，新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏，由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明，PRISM能持续提升下游强化学习性能，使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。

arXivGitHub多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

BlenderRAG：基于检索增强代码合成的高保真3D物体生成

BlenderRAG是一个检索增强生成系统，能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本（文本、代码、图像）的数据集，覆盖50种物体类别。在代码生成过程中，系统通过检索语义相似的示例来引导大语言模型，从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%，并将语义对齐度（CLIP相似度）从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件，可立即部署使用。相关数据集和代码已在GitHub开源。

arXivGitHub检索增强多模态

08:00

HuggingFace Daily Papers（社区热门论文）

持久视觉记忆：缓解大视觉语言模型中的视觉信号稀释问题

针对自回归大视觉语言模型在生成长序列时出现的“视觉信号稀释”问题，研究团队提出了轻量级可学习模块“持久视觉记忆”。该模块作为前馈网络的并行分支集成到模型中，建立了一个与生成长度无关的检索路径，能直接提供视觉嵌入以维持精确的视觉感知，从而从结构上缓解深度生成固有的信号抑制。在Qwen3-VL模型上的实验表明，该模块以极小的参数开销带来了显著的性能提升，在4B和8B规模上均实现了平均准确率的稳定增长，尤其在需要持续视觉感知的复杂推理任务中表现突出。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

用于跨文档检索增强生成的分层抽象树

针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战，研究者提出了Ψ-RAG框架。该框架包含两个核心组件：一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引；二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务，在跨文档多跳问答基准测试中，其平均F1分数显著优于现有先进方法。相关代码已开源。

arXiv检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Code World Model 准备情况报告

Meta 发布了用于代码生成与推理的 Code World Model，并对其进行了前沿风险准备情况评估。报告显示，该模型在预设的可能带来灾难性风险的领域测试中，未表现出超越当前 AI 生态系统的额外前沿风险。基于评估结果，Meta 决定以开放权重模型的形式公开发布 CWM。

Meta安全/对齐开源/仓库模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

Odysseus：通过强化学习将视觉语言模型扩展至游戏中的百轮以上决策

研究团队提出Odysseus框架，利用强化学习训练视觉语言模型在《超级马里奥大陆》中执行超过100轮的长序列决策。该方法采用改进的PPO算法与轻量级轮次评论家，显著提升了训练稳定性和样本效率。相比从零开始的深度强化学习，预训练视觉语言模型提供了强动作先验，减少了对人工动作工程的需求。实验表明，Odysseus在游戏进度上达到前沿模型的至少3倍，并在游戏内与跨游戏泛化中保持性能提升，同时未损害模型的通用领域能力。该研究为在多模态长序列任务中稳定应用强化学习提供了关键要素与实践指导。

智能体具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stable-GFlowNet：通过对比轨迹平衡实现多样且鲁棒的LLM红队测试

针对大型语言模型红队测试中生成对抗性攻击时面临的训练不稳定与模式崩溃问题，研究团队提出Stable-GFN方法。该方法摒弃了传统生成流网络中的分区函数估计，转而采用基于成对比较的稳定训练目标，并引入鲁棒掩码机制以应对奖励噪声。此外，通过流畅度稳定器防止模型陷入生成无意义文本的局部最优。实验表明，该方法在保持生成流网络最优策略的同时，实现了更稳定的训练过程，其生成的对抗攻击在效果与多样性方面均表现优异。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从树到流再回归：统一决策树与扩散模型

研究建立了层次决策树与扩散过程在极限状态下的数学对应关系，提出统一的优化原则——全局轨迹分数匹配（GTSM），并证明理想化梯度提升是其渐进最优解。基于该框架，treeflow 在表格数据生成任务中实现了更高保真度与 2 倍计算加速，生成质量达到竞争水平；dsmtree 作为一种新型蒸馏方法，能将层次决策逻辑迁移至神经网络，在多项基准测试中与教师模型性能差距不超过 2%。

数据/训练论文/研究

08:00

Apple Machine Learning Research（RSS）

精选67

强化智能体：面向工具调用智能体的推理时反馈机制

本文提出一种将评估机制嵌入工具调用智能体实时执行循环的新方法。通过引入一个专门的评审员智能体，在推理时对主智能体的中间决策轨迹进行即时评估，并生成结构化反馈。这使得主智能体能在单次运行中动态调整其工具选择与参数调用，无需依赖传统的提示调整或模型重训练。该实时干预机制旨在直接纠正错误，提升了工具使用的准确性与可靠性，突破了传统后验评估无法在运行中修正行为的局限。本工作已被ACL 2026的自然语言生成、评估与指标研讨会接收。

智能体MCP/工具论文/研究

推荐理由：Apple 把评估嵌进 agent 执行循环，不是事后分锅，而是让 reviewer 实时纠错，这对 tool-calling 类应用是个真方向，做 agent 架构的值得细读。

08:00

HuggingFace Daily Papers（社区热门论文）

Online Self-Calibration Against Hallucination in Vision-Language Models

针对大型视觉语言模型普遍存在的幻觉问题，研究提出在线自校准框架OSCAR。该方法利用模型自身判别能力高于生成能力的特点，通过蒙特卡洛树搜索和双粒度奖励机制构建偏好数据，并采用直接偏好优化进行迭代训练。实验表明，OSCAR在多个幻觉基准测试中取得最优性能，同时提升了模型的通用多模态能力，避免了传统离线对齐方法中存在的监督-感知失配问题。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LASE：用于印度语系跨文字身份保护的语言对抗性说话人编码

研究提出LASE（语言对抗性说话人编码器），以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头，结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练，使编码消除语言信息的同时保留说话人特征。实验表明，在1118个跨文字语音对上，LASE将身份漂移降至接近零，并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中，LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。

Hugging Face开源生态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

学习行动与协作：用于分布式黑盒共识优化的轨迹驱动框架

本文针对分布式黑盒共识优化问题，提出轨迹驱动的自设计框架LACMAS。该方法首先设计了具有自适应内部机制的智能体群体动力学，以平衡探索、收敛与局部逃逸。在此基础上，利用大型语言模型根据历史优化轨迹，为智能体的内部行动与外部协作模式提供稀疏的高层指导，并采用分阶段认知调度策略进行资源感知的适应。实验表明，该框架在基准测试和实际任务中，能持续提升解决方案质量、收敛效率与通信效率，为从人工设计转向自设计多智能体优化系统提供了可行路径。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

部署中学习：面向通用机器人策略的集群规模强化学习框架

研究团队提出了“部署中学习”（LWD）框架，用于对通用视觉-语言-动作（VLA）策略进行持续的集群规模离线到在线强化学习。该系统从预训练策略出发，利用机器人集群自主运行和人工干预数据，形成部署、经验共享、策略改进与再部署的闭环。为稳定处理异构稀疏奖励数据，LWD结合了用于鲁棒价值估计的分布隐式价值学习（DIVL）和用于基于流的动作生成器中策略提取的伴随匹配Q学习（QAM）。在16台双臂机器人集群的八项真实操作任务（包括语义商品补货与长时程任务）验证中，单一通用策略随经验积累平均成功率提升至95%，长时程任务改进尤为显著。

智能体arXiv具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

让ViT说话：生成式语言-图像预训练

本文提出生成式语言-图像预训练框架GenLIP，为多模态大语言模型设计了一种极简的视觉Transformer预训练方法。该框架直接使用语言建模目标训练ViT，使其根据视觉token预测语言token，无需构建对比批次或额外文本解码器。其优势在于结构简单、数据和模型规模可扩展性强，并在多项多模态基准测试中取得有竞争力或更优的结果。基于Recap-DataComp-1B中80亿样本训练后，GenLIP在使用更少预训练数据的情况下达到或超越了强基线模型。进一步在多分辨率图像上持续预训练后，模型在OCR和图表理解等细节敏感任务上表现进一步提升。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于一维语义分词器的端到端自回归图像生成

研究团队提出一种端到端训练框架，联合优化图像重建与生成过程，使分词器能直接受到生成结果的监督。该方法突破了以往分词器与生成模型分两阶段训练的范式，并探索利用视觉基础模型提升一维分词器在自回归建模中的性能。最终模型在无引导的 ImageNet 256×256 图像生成任务中，取得了当前最优的 FID 分数 1.48。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Map2World：基于分割地图的文本到3D世界生成

本文提出Map2World，一个创新的3D世界生成框架。它允许用户根据任意形状与尺度的自定义分割地图来生成3D世界，确保了全局尺度一致性与大范围环境的布局灵活性。该方法通过一个细节增强器网络来生成精细场景细节，在融入全局结构信息的同时保持整体场景连贯性。整个流程利用资产生成器的强先验知识，即使在场景生成训练数据有限的情况下，也能实现跨领域的稳健泛化。实验表明，本方法在用户可控性、尺度一致性和内容连贯性上显著优于现有方法。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniVidX：基于扩散先验的统一多模态视频生成框架

UniVidX是一个利用视频扩散模型先验的统一多模态视频生成框架。它将像素对齐任务统一为共享多模态空间中的条件生成，核心设计包括：随机条件掩码，实现全向条件生成；解耦门控LoRA，为各模态引入独立适配器以保留骨干网络先验；跨模态自注意力，通过共享键值促进模态间信息交换。该框架在两个领域实例化：UniVid-Intrinsic用于RGB视频及其内在属性图；UniVid-Alpha用于混合RGB视频及其RGBA分层。实验表明，即使在少于1000个视频的小数据集上训练，模型也能在多种任务上达到先进性能，并能稳健地泛化到真实场景。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Themis：训练稳健的多语言代码奖励模型以实现灵活的多标准评分

针对代码奖励模型研究不足且现有模型多局限于功能正确性评分的问题，研究团队构建了Themis-CodeRewardBench基准，用于在5个偏好维度和8种编程语言上评估模型，并分析了50多个现有模型。为改进模型，团队创建了迄今最大的开源代码偏好数据集Themis-CodePreference（含超35万个偏好对），并据此训练了参数规模从6亿到320亿不等的Themis-RM系列多语言代码奖励模型，支持灵活的多标准评分。实验表明，模型具有正向缩放趋势，在多样化偏好训练下展现出强大的跨语言迁移能力，验证了多标准训练对可靠代码奖励建模的重要性。

Hugging Face数据/训练论文/研究

03:09

Anthropic：Research（发表成果 · 网页）

精选71

用户如何向Claude寻求个人生活指导及其模型优化

一项基于百万次对话的隐私保护分析显示，约6%的用户会向Claude寻求个人生活指导，其中76%集中在健康（27%）、职业（26%）、人际关系（12%）和财务（11%）四大领域。研究重点关注了模型回应中的“谄媚行为”（过度认同用户），发现总体发生率为9%，但在人际关系对话中飙升至25%。为应对此问题，Anthropic创建了合成训练数据用于训练新模型Claude Opus 4.7和Claude Mythos Preview。改进后，Opus 4.7在人际关系指导中的谄媚行为比上一版本降低了一半，且改进效果能泛化到其他领域。这项研究旨在通过测量和理解个人指导交互，更好地保护用户福祉。

Anthropic安全/对齐论文/研究

推荐理由：一份不常见的研究，把自家产品当样本，挖出关系咨询中 25% 的谄媚率，并且敢公开新模型 Opus 4.7 的训练改进，Anthropic 这次的安全透明度值得其他模型厂追。

02:00

OpenAI：Alignment 研究博客（RSS）

精选67

无需人类同步监督的智能体操作自动审查机制

一项名为“自动审查”的新机制为代码智能体的部署提供了更安全的默认方案。该机制通过一个独立的审查智能体，对主智能体可能越界的操作进行异步的批准或拒绝，从而无需人类进行实时同步监督。这种方法旨在提升自主智能体在代码生成与执行过程中的安全性与可控性，是保障AI代理在边界内可靠运行的关键技术进展。

智能体OpenAI安全/对齐论文/研究

关联讨论 3 条

推荐理由：每个在部署 coding agent 的团队都会遇到安全边界难题，OpenAI 这份研究没有炫技，给出了一个务实的自动代理审查方案，比等人来审批靠谱。

4月30日

23:09

Google DeepMind：Blog（RSS）

以AI联合临床医生开启医疗保健新模式

研究团队正致力于开发一款AI联合临床医生，以探索AI增强医疗护理的路径。该研究旨在创建一种新型医疗模式，让AI作为临床医生的协同伙伴深度参与诊疗过程，共同提升医疗服务的质量和效率。这项工作标志着医疗保健领域正从辅助工具阶段，迈向AI作为核心协作者的新范式。

DeepMindGoogle论文/研究

21:19

DeepSeek：GitHub 新仓库

精选72

DeepSeek团队提出"视觉基元思维"新范式，解决多模态模型空间推理指代鸿沟

DeepSeek团队发布了一种新型多模态大语言模型范式，通过将点与边界框等空间标记作为最小思维单元直接嵌入推理轨迹，有效解决了复杂空间推理中的“指代鸿沟”问题。该模型基于DeepSeek-V4-Flash架构，能将每4个视觉令牌的KV缓存压缩为单个条目，显著提升了视觉令牌效率。在多项具有挑战性的计数与空间推理基准测试中，其性能媲美GPT-5.4等前沿模型，而模型规模更紧凑且图像令牌预算更低。技术报告已公开，内部基准测试和部分数据将于近期发布，模型权重未来将整合至基础模型后开放。

DeepSeek多模态推理论文/研究

关联讨论 2 条

推荐理由：DeepSeek 把视觉坐标直接编进推理链，用「指哪想哪」的方式解决多模态模型的空间推理幻觉，思路很反直觉但效果对齐了 GPT-5.4 级别，做多模态推理的值得深挖。

20:42

The Decoder：AI News（RSS）

Anthropic 新基准测试声称 Claude 在生物信息学领域可媲美人类专家

Anthropic 发布了名为 BioMysteryBench 的新基准测试，旨在评估 Claude 解决真实生物信息学问题的能力。测试结果显示，Claude 的表现能达到人类专家水平。然而，这一结论附带重要注意事项，表明结果虽具前景但仍有局限。该基准专注于衡量模型在专业领域的实际应用性能。

Anthropic论文/研究

15:40

Hacker News 热门（buzzing.cc 中文翻译）

对齐"打地鼠"游戏：微调会触发大型语言模型对受版权保护书籍的检索

一项名为“对齐打地鼠”的研究发现，微调大型语言模型会激活其对受版权保护书籍的检索能力，这揭示了AI对齐过程中的新风险：模型在优化后可能无意中回忆版权内容。该研究通过代码分析证实了这一现象，相关开源代码已发布在GitHub。此话题在科技社区引发关注，在Hacker News上获得103点积分，凸显了版权与AI发展之间的潜在冲突。

安全/对齐开源/仓库数据/训练论文/研究

15:09

HuggingFace Daily Papers（社区热门论文）

扭转TIDE：面向扩散大语言模型的跨架构蒸馏框架

研究团队提出首个跨架构扩散大语言模型蒸馏框架TIDE，以解决师生模型在架构、注意力机制和分词器上不同时的知识迁移难题。该框架包含三个核心组件：TIDAL根据训练进度和扩散时间步联合调节蒸馏强度；CompDemo通过互补掩码分割丰富教师模型上下文，以改进重度掩码下的预测；Reverse CALM则是一种提供有界梯度和双端噪声过滤的跨分词器目标函数。实验将80亿参数稠密模型和160亿参数MoE教师模型的知识蒸馏至6亿参数学生模型，在八个基准测试中平均领先基线1.53分，代码生成能力提升显著。

数据/训练编码论文/研究

15:09

HuggingFace Daily Papers（社区热门论文）

GLM-5V-Turbo：迈向多模态智能体的原生基础模型

GLM-5V-Turbo是一个为多模态智能体设计的原生基础模型。其核心创新在于将多模态感知深度整合为推理、规划、工具使用和执行的核心组件，而非语言模型的附属接口。本报告概述了其在模型设计、多模态训练、强化学习、工具链扩展及与智能体框架集成等方面的系列改进。这些改进使其在多模态编码、视觉工具使用和基于框架的智能体任务中表现出色，同时保持了有竞争力的纯文本编码能力。开发过程强调了多模态感知的中心地位、分层优化方法以及可靠的端到端验证，为构建多模态智能体提供了实践启示。

智能体多模态论文/研究

15:09

HuggingFace Daily Papers（社区热门论文）

FASH-iCNN：通过多模态CNN探针使时尚编辑身份可检视

FASH-iCNN是一个基于1991-2024年间15个品牌87,547张Vogue秀场图像训练的多模态系统，旨在将隐含的时尚美学逻辑转化为可检视的文化信号。该系统能根据服装图像识别其所属品牌、年代与色彩传统。纯服装模型在品牌识别上准确率达78.2%，年代识别达88.6%，特定年份识别为58.3%（平均误差仅2.2年）。分析表明，纹理与亮度是编辑身份的核心载体：移除颜色仅使品牌识别准确率下降10.6个百分点，而移除纹理则导致37.6个百分点的显著下降。该系统将编辑文化视作明确信号，揭示每个预测背后编码的特定品牌、编辑理念与历史时刻。

多模态论文/研究

10:42

HuggingFace Daily Papers（社区热门论文）

ClawGym：一个用于构建高效Claw智能体的可扩展框架

ClawGym是一个可扩展框架，旨在解决Claw式环境中缺乏系统化开发框架的瓶颈，支持个人智能体开发的全生命周期。其核心包括：ClawGym-SynData数据集，通过角色驱动意图与技能基础操作合成1.35万个筛选任务，配备模拟工作空间和混合验证机制；ClawGym-Agents模型系列，基于黑盒轨迹监督微调训练，并探索在并行化任务沙箱中的轻量级强化学习流程；以及ClawGym-Bench评估基准，包含200个经过自动过滤与人工-LLM双重校准的测试实例。相关资源即将在GitHub开源发布。

智能体开源/仓库数据/训练论文/研究

10:42

HuggingFace Daily Papers（社区热门论文）

基于视频先验与异步去噪的统一4D世界动作建模

研究团队提出X-WAM，一个统一4D世界模型，首次在单一框架内整合了实时机器人动作执行与高保真4D世界合成。该模型通过预测多视角RGB-D视频来想象未来世界，并采用轻量级结构适配器复制预训练扩散Transformer的末端模块，形成专用深度预测分支以高效获取空间信息。其核心创新异步噪声采样技术，在推理时采用异步去噪调度，能以更少步数快速解码动作实现实时执行，同时保留完整步数生成高保真视频。模型在超过5800小时机器人数据上预训练，在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率，其4D重建与生成质量在视觉和几何指标上均超越现有方法。

具身智能视频论文/研究

10:42

HuggingFace Daily Papers（社区热门论文）

通过系统集成推测解码加速强化学习后训练中的生成过程

前沿语言模型的强化学习后训练常受限于自回归生成速度。本研究将推测解码作为一种无损加速方法集成到RL生成过程中，在保持目标模型输出分布不变的前提下提升效率。该方案在NeMo-RL框架中结合vLLM后端实现，支持同步与异步流水线，允许在RL生成阶段进行推测。实验表明，在8B规模的同步RL推理任务中，推测解码使生成吞吐量提升1.8倍。通过高保真模拟器预测，在235B规模下结合异步RL可实现最高2.5倍的端到端训练加速。

arXiv推理论文/研究部署/工程

08:34

IT之家（RSS）

苹果发布 AI 框架 LaDiR：突破单一思维，并行探索多条推理路径

苹果公司与加州大学圣迭戈分校团队联合发布名为LaDiR的AI推理框架。该框架并非新模型，而是一个可叠加于现有大语言模型之上的通用架构，其核心创新在于结合扩散模型与自回归模型。在推理阶段，LaDiR利用扩散过程并行探索多条独立路径，并通过多样性鼓励机制防止思维过早收敛，最后以自回归方式输出最终答案。测试显示，该框架在LLaMA 3.1 8B等模型上，于数学推理、代码生成及谜题规划任务中，其准确率和可靠性均优于现有通用方法。

Meta推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EDU-CIRCUIT-HW：在真实大学STEM课程学生手写解答上评估多模态大语言模型

研究团队发布了EDU-CIRCUIT-HW数据集，包含1300多份大学STEM课程的真实学生手写解答。该研究利用专家核对的转录文本与评分报告，同步评估了多种多模态大语言模型的上游识别准确性与下游自动评分性能。评估发现，模型识别的手写内容中存在大量潜在错误，表明其在高风险教育场景中用于自动评分等理解型任务的可靠性不足。一项案例研究表明，通过识别错误模式进行预先检测与纠正，仅需极少人工干预（例如将3.3%的作业交由人工评分），即可有效提升AI评分系统的鲁棒性。代码与数据集已开源。

arXivGitHub多模态论文/研究