现有驾驶世界模型多专注于未来场景生成,而大语言模型虽具推理能力却无法预测几何演变,导致语义理解与物理模拟之间存在鸿沟。为此,我们提出HERMES++,一个将3D场景理解与未来几何预测集成于单一框架的统一模型。其核心设计包括:利用BEV表征整合多视角空间信息;引入LLM增强的世界查询以促进知识迁移;设计“当前-未来链接”来弥合时序差距,使几何演变基于语义上下文;以及采用联合几何优化策略,整合显式约束与隐式正则化以确保结构完整性。在多个基准测试中,HERMES++在未来的点云预测和3D场景理解任务上均超越专用方法,展现出卓越性能。模型与代码已开源。
Skills-Coach是一种自动化框架,旨在提升基于大语言模型的智能体的技能自进化能力。它通过四个核心模块解决技能生态系统碎片化:多样化任务生成模块创建测试套件;轻量化优化模块改进技能提示和代码;对比执行模块评估原始与优化技能;可追溯评估模块严格评判性能。框架提供虚拟和真实执行模式。研究使用包含48项技能的Skill-X基准数据集验证,实验结果表明Skills-Coach在广泛技能类别上实现显著性能提升,有助于开发更强大、适应性更强的LLM智能体。
WindowsWorld是一个跨应用工作流基准,旨在系统评估GUI代理在模拟真实专业活动的复杂多步骤任务中的性能。该基准采用由16种职业引导的多智能体框架,生成包含四个难度级别及中间检查的任务,经人工审核后在模拟环境中执行。基准包含181个任务,平均每个任务有5.0个子目标,覆盖17种常用桌面应用,其中78%为跨应用任务。实验结果显示,当前领先的大模型与代理在跨应用任务上表现不佳(成功率低于21%),远低于简单单应用任务;在需要跨三个及以上应用进行条件判断与推理的任务中大多失败,且执行效率低下。相关代码、基准数据与评估资源已开源。
Haiku是一个基于多重免疫荧光数据训练的三模态对比学习模型,整合了空间蛋白质组、H&E组织病理图像和临床数据。该模型在来自1,606名患者、涵盖11种器官类型的3,218个组织切片上训练,实现了三模态跨模态检索,在下游分类、生存预测等任务中超越单模态基线。其创新性在于支持仅通过临床文本描述进行零样本生物标志物推断,并引入反事实预测框架,能在固定组织形态下通过修改临床元数据揭示与癌症进展相关的微环境分子变化,为连接分子测量与临床背景提供了系统分析工具。
研究团队发布了CURVAS-PDACVI数据集与挑战赛,这是一个针对胰腺导管腺癌术前血管侵犯评估的开放基准。数据集包含每例扫描的五位专家独立标注,支持不确定性感知AI模型的开发。提出的评估框架不仅衡量空间重叠度,还纳入概率校准与侵犯判定。对六种前沿方法的评估表明,全局体积精度高的模型在关键的肿瘤-血管界面未必可靠;而专门建模标注者分歧的方法能生成更校准的概率图,在专家共识低的复杂案例中更具鲁棒性。该基准揭示了体积精度作为手术适用性代理指标的局限性,推动了面向术前决策的不确定性感知模型的发展。
针对德语等高资源非英语语言,本研究构建分层过滤器处理5亿份网络文档,对比了单次训练大规模低过滤数据与多轮重复训练高质量核心数据的效果。实验表明,重复训练高质量数据在多种模型规模和训练量级下均稳定优于追求多样性的单次训练,即使重复7轮后性能差距依然显著。这证明通过质量过滤实现语义集中,比单纯扩大数据量更能高效推进语言建模。基于此发布的德语模型Boldt,在训练量仅为同类模型1/10至1/360的情况下取得了领先性能,相关清洗后的评估基准已公开。
MASCing框架首次实现无需重新训练的专家混合模型安全行为灵活配置。该框架使用LSTM代理模型捕捉路由依赖关系,通过优化引导矩阵识别行为相关专家回路,并在推理时对路由门应用引导掩码以覆盖专家选择,从而针对性增强或抑制特定安全行为。在七款开源MoE模型测试中,该框架以可忽略开销显著提升性能:多轮越狱防御平均成功率从52.5%提升至83.9%,成人内容生成平均成功率从52.6%提升至82.0%,最高增益分别达89.2%和93.0%。
研究通过引入mosaic框架,系统探究了扩散模型在多物体生成中的局限性。发现场景复杂性是主要障碍,而非概念不平衡;在低数据量下,计数能力尤其难以学习。当训练中排除更多概念组合时,模型的组合泛化能力会崩溃。这些发现揭示了扩散模型的基本限制,为设计更强归纳偏置和数据方案以提升多物体组合生成鲁棒性提供了依据。
研究团队开发了一套手语伪标注流程,以解决高质量标注数据匮乏对AI手语翻译发展的限制。该流程以手语视频和英文文本为输入,输出包括时间区间在内的可能注释排序集合,涵盖手势词、手指拼写单词和手语分类器。新发布的ASL STEM Wiki和FLEURS-ASL等数据集虽包含数百小时专业译员数据,但因标注成本过高仅实现部分标注。该自举方法旨在显著提升大规模手语数据的利用效率。
研究团队提出了基于标准化流的视频生成模型STARFlow-V,旨在应对视频生成领域长期由扩散模型主导的局面。该模型具备端到端学习、鲁棒的因果预测和原生似然估计等优势,能够直接处理连续数据并建模复杂的时空动态。这一工作标志着标准化流在图像生成取得进展后,首次被系统性地扩展至计算成本更高、时空结构更复杂的视频生成任务中,为生成式模型的设计提供了新的技术路径。
Anthropic团队开发了BioMysteryBench生物信息学基准测试,用于评估Claude在分析真实数据集、解决开放式研究问题上的能力。测试发现,Claude的生物学科学能力正快速迭代,当前模型表现已与人类专家相当,最新模型甚至解决了部分专家小组未能破解的问题,且有时策略迥异。该基准旨在应对科学评估的固有挑战,如生物学研究中存在多种合理的“正确”方法,以及研究决策的高度主观性。
LMSYS团队针对SGLang中的强化学习工作负载,提出了一种基于RDMA的点对点权重更新机制,作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输,将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒,提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余,允许推理服务器更快恢复rollout过程,且兼容所有主流开源模型。
英国帝国理工学院、斯坦福大学及互联网档案馆的研究显示,自ChatGPT推出至2025年中,全球互联网约35%的新增内容带有AI生成痕迹,占比从近零快速跃升。研究验证了AI内容存在“语义收缩”和“情绪单一且正面”的现象,其语义相似度比人工内容高33%,正面情绪评分高107%。但其他如事实质量下降等负面影响未获统计支持。目前,生成式AI主要影响了文字多样性和情绪表达,对信息可信度的冲击尚未明确证实。
为评估AI智能体在自主科学研究中的文献发现能力,研究者推出了AutoResearchBench基准测试平台。它包含两项任务:“深度研究”需通过多步探索定位特定论文;“广度研究”需全面收集满足条件的论文系列。该基准具有研究导向性、文献聚焦性和开放探索性三大特点,对智能体的科学理解与精细推理能力提出高要求。实验显示,即使最强大的大语言模型在深度研究任务上准确率仅为9.39%,在广度研究任务上的IoU指标仅为9.31%,凸显了任务的艰巨性。相关数据集与代码已开源。
传统创建交互式STEM课件需要编程技能,而现有生成式AI工具存在生成静态、处理长文档困难、缺乏教学严谨性及修改耗时过长等问题。为此,我们提出了MAIC-UI,一个零代码创作系统,允许教育工作者从教科书、PPT和PDF快速创建并编辑交互式课件。该系统通过结构化知识分析与多模态理解确保教学严谨性,采用“生成-验证-优化”两阶段流程分离内容与视觉优化,并基于统一差异的增量生成技术实现点击定位编辑,将迭代周期缩短至10秒内。一项40人对照实验表明,该系统相比直接文本转HTML生成,显著减少了编辑迭代次数(4.9 vs. 7.0),并提升了易学性与可控性。在53名高中生参与的三个月课堂部署中,使用该系统的班级STEM成绩提升了9.21分,有效促进了学习自主性并缩小了成绩差距。
本研究将递归计算从单一模型扩展至多智能体系统,提出RecursiveMAS框架。该框架通过轻量级RecursiveLink模块连接异构智能体,形成协作循环,实现潜在思维生成与状态传递,并采用内外双循环算法进行全系统协同优化。理论分析表明其效率高于传统文本交互系统且训练稳定。在数学、科学、医学等9项基准测试中,该框架相比先进基线平均准确率提升8.3%,推理速度加快1.2–2.4倍,token使用量减少34.6%–75.6%。代码与数据已公开。
针对现有基准在环境隔离、任务单一和意图假设完美等方面的局限,本文提出了DV-World基准。该基准包含260个任务,旨在真实工作流中评估数据可视化智能体。它涵盖三大领域:支持原生电子表格图表创建与诊断的DV-Sheet、要求跨编程范式重构可视化以适应新数据的DV-Evolution,以及通过模拟模糊需求测试主动意图对齐的DV-Interact。基准采用结合数值对齐与多模态大模型语义视觉评判的混合评估框架。实验表明,当前最先进模型整体表现不足50%,凸显其处理真实世界复杂挑战的能力存在严重缺陷。DV-World为引导智能体发展企业级综合专业知识提供了现实测试平台。
SkillSynth 是一个基于场景中介技能图的自动化终端任务合成框架,旨在解决终端智能体训练中高质量、多样化执行轨迹稀缺的问题。该方法首先构建大规模技能图,以场景作为中间过渡节点连接多样化的命令行技能;随后从图中采样路径作为真实工作流的抽象,并通过多智能体系统将其实例化为可执行任务。通过在图形采样的工作流路径上进行任务合成,SkillSynth 能够显式控制解决合成任务所需的最小执行轨迹的多样性。在 Terminal-Bench 上的实验验证了其有效性。此外,SkillSynth 合成的任务实例已用于训练 Hy3 Preview,提升了其在终端环境下的智能体能力。
研究团队提出一个系统性后训练框架,旨在弥合大规模视频扩散模型预训练性能与实际部署需求之间的差距。该框架包含四个协同阶段:首先通过监督微调将基础模型转化为稳定的指令跟随策略;随后采用专为视频扩散定制的新型群组相对策略优化方法进行基于人类反馈的强化学习,以提升感知质量和时间连贯性;接着集成专用语言模型进行提示词增强以优化用户输入;最后通过推理优化提升系统效率。实验表明,该统一流程能有效减少常见伪影,显著提升可控性和视觉美感,同时严格遵守采样成本限制。
研究团队提出了一种身份感知的人体运动生成框架IAM,旨在解决现有文本驱动运动生成模型忽略身体形态对运动动态影响的问题。该框架通过多模态信号(自然语言描述和视觉线索)表征身份,并引入运动与形状联合生成范式,能同时合成运动序列和身体形状参数。实验在运动捕捉数据集和大规模真实世界视频上进行,结果表明该方法在保持高运动质量的同时,显著提升了运动真实感及运动与身份的一致性。
针对当前统一多模态模型(UMMs)主要遵循的基于编辑(RvE)精修范式存在修改空间受限、指令描述粗略导致精修不完整的问题,本研究提出了一种基于再生(RvR)的新框架。RvR将精修任务重新定义为条件图像再生,其核心是依据目标提示词和初始图像的语义令牌进行整体图像再生,而非生成粗略的编辑指令并强制保留像素。这种方法突破了原有范式对修改空间的限制,实现了更完整的语义对齐。实验结果表明,RvR在多个基准测试上均取得显著性能提升:Geneval得分从0.78升至0.91,DPGBench从84.02提高到87.21,UniGenBench++则从61.53跃升至77.41。
本文提出Mutual Forcing框架,用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练,先训练单模态生成器,再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型,将少步与多步生成集成于单一权重共享模型中,通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法,本方法仅需4至8步即可达到或超越基线性能,在效率与质量上均具优势。该方法无需额外双向教师模型,支持更灵活的训练序列长度,并可直接从真实配对数据中学习。
BARRED框架仅需任务描述和少量未标注样本,即可生成忠实且多样的合成训练数据。该方法将领域空间分解为多个维度以确保全面覆盖,并采用多智能体辩论验证标签正确性,从而构建高质量训练语料。实验表明,基于此合成数据微调的小型语言模型,在多种定制策略任务上持续超越包括推理模型在内的先进专有大模型及专用护栏模型。消融研究证实,维度分解与辩论验证对确保数据多样性和标签保真度至关重要。该框架消除了对大量人工标注的依赖,为精准定制护栏提供了可扩展方案。
韩国科学技术院研究团队成功开发出一种基于DNA的生物晶体管,突破了传统硅基半导体2纳米的微型化极限。该技术利用间距仅0.34纳米的DNA分子,通过可逆组装与解组装响应外部信号,实现了分子层面的计算与信息存储双重功能,克服了传统DNA电路一次性使用的缺陷。这项模拟半导体晶体管原理的成果,有望应用于体内分子诊断装置,实时监测疾病信号,为生物计算与医疗技术开辟了新方向。研究已发表于《Science Advances》。
HiL-Bench 基准测试旨在评估智能体在任务信息不完整或模糊时,能否判断何时应自主执行、何时需向人类求助。该测试包含人为设置的障碍信息,核心指标 Ask-F1 综合衡量提问精准度与障碍召回率,以平衡过度提问与盲目猜测。评估显示,当前前沿模型在判断求助时机上存在普遍缺陷,其完整信息性能仅能恢复一小部分。失败模式主要体现为三种:过度自信未察觉信息缺口、虽检测到不确定性但仍持续出错、以及提出宽泛模糊的求助。通过基于 Ask-F1 的强化学习训练,一个 32B 模型在求助质量与任务通过率上均获得提升,且能力可跨领域迁移,表明判断力可通过训练改进。
本文针对扩散生成模型中未被充分研究的组合复杂性问题,指出现有训练方案可能难以充分覆盖高维数据样本及其附加属性所构成的空间,从而限制模型性能。为此,我们提出了ComboStoc方法,通过构建充分利用组合结构的随机过程,显著加速了图像和3D形状等多种数据模态的网络训练。此外,该方法还支持在测试时生成过程中,为不同维度和属性使用异步时间步,从而实现对它们不同程度的灵活控制。代码已开源。
本研究提出将Sigmoid注意力作为Softmax注意力的直接替代方案,用于构建更稳定的生物基础模型。在六个单细胞数据集上的实验表明,Sigmoid注意力能提升25%的细胞类型分离度,改善细胞类型内聚性,并降低验证损失,同时训练速度提升高达10%。理论分析揭示,Sigmoid具有全局有界导数和对角雅可比结构,这缓解了Softmax的稠密耦合带来的不稳定性。在压力测试中,训练1.6亿参数模型时,Softmax出现梯度爆炸,而Sigmoid保持稳定。团队开源了高性能GPU内核TritonSigmoid,在H100上实现515 TFLOPS,性能超越现有方案,并原生支持生物序列所需的填充处理。
研究团队提出Prox-E,一个无需训练即可实现细粒度3D控制的框架。该方法先将输入3D形状抽象为一组紧凑的几何基元,再利用预训练的视觉语言模型对该抽象进行基元层级的编辑指定,最终引导3D生成模型完成局部结构修改,同时严格保持物体未变化区域的原始身份。实验表明,该方法在身份保持、形状质量和指令遵循度上,均优于现有的基于2D的3D编辑器和需要训练的方法。
Web2BigTable是一个支持广度和深度搜索的双层多智能体框架。上层编排器将任务分解为子问题,下层工作智能体并行求解。系统通过运行-验证-反思的闭环流程,利用持久化外部记忆联合改进任务分解与执行,并实现单智能体的自我进化。工作智能体通过共享工作空间协调,减少冗余探索、调和冲突证据并适应覆盖缺口。该系统在广度搜索基准WideSearch上达到新SOTA:Avg@4成功率为38.50(是第二名的7.5倍),行F1为63.53,项F1为80.12。在深度搜索基准XBench-DeepSearch上也取得73.0的准确率。代码已开源。
研究提出了一种名为“自适应思考”的新方法,使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准,当模型对简单问题已有高置信度答案时,会跳过显式推理步骤,直接生成最终答案。实验表明,在保持相同性能水平下,该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量,实现了更高效的计算最优推理。
研究团队提出DSO方法,旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时,通过单一标量参数直接、实时地控制偏见缓解程度,实现无需重新训练的动态调整。实验表明,DSO能在偏见指标上实现高达90%的改善,同时将性能损失控制在10%以内,有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。
现有计算机使用代理在长周期图形界面任务中因每一步都调用大型多模态模型而导致效率低下。此类任务轨迹具有高度异质性:多数步骤可由轻量策略可靠处理,而错误多集中于少数高风险时刻,表现为进度停滞与语义漂移。为此,本文提出一种事件驱动的步骤级级联框架,默认运行轻量策略,仅当轻量监测器识别到风险升高时才升级至强模型。该框架整合了停滞监测器与里程碑监测器,能根据交互进程自适应分配计算资源,将始终开启的前沿模型推理转变为按需调用。该模块化设计无需改变现有代理架构或重新训练大模型即可直接集成。
针对现有开源视觉偏好数据集存在的冲突偏好、低分辨率等问题,研究团队提出Poly-DPO算法,通过多项式项动态调整模型置信度以增强抗噪性。为突破数据瓶颈,团队构建了大规模高质量数据集ViPO,包含百万级图像对与数十万视频对。实验表明,在高质量ViPO上,Poly-DPO最优配置会收敛至标准DPO,验证了数据质量;而在噪声数据集上,Poly-DPO相比Diffusion-DPO在SD1.5和SDXL模型上分别取得6.87和2.32的性能提升。研究证实,算法适应性与数据质量共同推动视觉偏好优化的规模化发展。
本研究通过推理冲突视角,探讨大语言模型能否将归纳、演绎等基本推理模式与具体问题实例解耦。发现LLMs优先考虑合理性而非合规性,即使指令冲突也倾向任务适用推理。任务准确率不严格由合理性决定,模型依赖内部参数记忆且随规模增强。推理冲突可内部检测,置信度显著下降。实验显示推理类型从中后层线性编码,表明激活层面可控。通过机制干预,成功将模型导向合规,指令遵循率最高提升29%。这表明主动干预能有效解耦逻辑模式与数据,提升可控性、忠实度和泛化能力。
长度价值模型(LenVM)是一个创新的令牌级框架,它将剩余生成长度预测转化为价值估计问题,通过为每个生成令牌分配恒定负奖励来获得密集、无偏且可扩展的监督信号。实验表明,LenVM能显著提升模型对生成长度的精确控制能力:在LIFEBench精确长度匹配任务中,它将一个7B模型的长度分数从30.9大幅提升至64.8,超越了前沿闭源模型。同时,该模型支持性能与效率的连续权衡,如在GSM8K上设定200令牌预算时,能保持63%的准确率,远超基线模型的6%。此外,LenVM能从提示开始预测总长度,并提供生成动态的可解释视图,展现了其作为通用长度建模框架的广泛潜力。
针对消费级GPU服务器内存有限和PCIe互联慢的问题,研究团队提出了RoundPipe流水线调度方案。该方法通过将GPU视为无状态工作节点,以轮询方式动态分配计算阶段,打破了权重绑定限制,实现了接近零气泡的流水线。系统集成了优先级感知传输调度、细粒度事件同步协议与自动分层划分算法。在8块RTX 4090的服务器上测试表明,其对1.7B至32B模型的微调速度比现有最优基线快1.48至2.16倍,并能单机完成Qwen3-235B模型(31K序列长度)的LoRA微调。该工具已作为开源Python库发布。
传统科学论文为追求线性叙事,舍弃了大量失败实验与分支路径,且描述与可执行细节间存在鸿沟,严重阻碍了AI智能体的理解与复现。为此,研究团队提出“智能体原生研究制品”(ARA)协议,以包含科学逻辑、可执行代码、探索图谱及证据层的机器可执行研究包取代传统论文。其生态系统由实时研究管理器、ARA编译器和原生评审系统支持。实验表明,ARA将问答准确率从72.4%提升至93.7%,复现成功率从57.4%提高至64.4%。保存的失败轨迹能加速扩展任务,但也可能限制高能力智能体跳出既有框架。
研究提出协同进化策略蒸馏(CoPD),以解决混合RLVR的跨能力发散问题和传统OPD因行为模式差距导致的能力吸收不全问题。CoPD通过推动专家并行训练,并在每个专家的RLVR训练中引入双向OPD,使专家互为教师、协同进化,从而保持行为模式一致且知识互补。实验表明,CoPD能全面集成文本、图像和视频推理能力,性能显著优于混合RLVR和MOPD等基线,甚至超越领域专用专家。该方法可能启发新的训练扩展范式。
研究团队提出名为ElementsClaw的智能体框架,通过协同大型原子模型与大型语言模型来加速材料发现。该框架利用微调自10亿参数原子模型Elements的工具进行原子尺度计算,并借助LLM进行高层语义推理,将材料发现转向集成化、人机交互模式。在超导体搜索中,该框架仅用28个GPU小时便筛选了240万种晶体,识别出6.8万个高置信度候选材料,将已知超导体空间扩大了数个数量级。它不仅成功识别出文献中隐藏的超导体,更发现了四种经实验验证的新型超导体,其中Zr3ScRe8和HfZrRe4的转变温度分别为6.8K和6.7K。
基于Transformer的表格检索系统将结构化表格扁平化为序列,导致即使语义不变,不同序列化格式(如CSV、HTML)也会产生显著差异的检索结果。研究将不同格式的嵌入视为共享语义的噪声视图,以其质心作为规范表示。质心平均法能有效抑制格式特异性变异,在多个检索模型的比较中优于单一格式。此外,研究引入轻量级残差瓶颈适配器,将单格式嵌入映射向质心目标,并施加协方差正则化。该适配器提升了多个稠密检索器的鲁棒性,但改进效果因模型而异,对稀疏检索提升较弱。相关代码与模型已开源。