研究提出“用数据编程”新范式,通过将结构化知识作为训练与评估的共同基础,将数据工程生命周期精确映射至软件开发流程:训练数据即源代码,模型训练即编译,基准测试即单元测试。模型失败可被分解为概念缺失或推理链断裂,并能追溯到具体数据缺陷,通过针对性修补实现改进。该方法在十六个学科中得到验证,修复周期能带来模型性能和架构的持续提升,且不损害通用能力。研究同时开源了结构化知识库、基准测试套件和训练语料库。
针对当前智能体视频生成流程存在的语义漂移与级联失败问题,研究团队提出了Co-Director。该框架将视频叙事构建为全局优化问题,其核心是分层参数化设计:全局层采用多臂老虎机探索有潜力的创意方向,局部层通过多模态自优化循环来缓解身份漂移并确保序列一致性,从而平衡叙事策略探索与创意配置利用。为进行评估,团队构建了包含400个场景的个性化广告数据集GenAD-Bench。实验表明,Co-Director在生成连贯性上显著优于现有先进基线,并能无缝泛化至更广泛的电影叙事场景。
Meta-CoT提出一种新的图像编辑范式,通过两级分解提升模型的理解细粒度和任务泛化能力。该方法首先将任意编辑操作分解为(任务、目标、所需理解能力)三元组,以增强对编辑意图的细粒度理解;其次将编辑任务拆解为五个基础元任务,使训练仅需在这些元任务上进行,结合新引入的“思维链-编辑一致性奖励”机制,促使模型更准确地利用推理信息进行编辑。实验表明,该方法在21项编辑任务上实现了15.8%的整体性能提升,并能有效泛化到未见过的编辑任务。相关代码、基准测试和模型已开源。
普林斯顿大学研发出一种融合活体脑细胞与嵌入式电子技术的三维生物电子计算机,能完成模式识别任务。该器件在环氧树脂基底上构建了微型导线与电极的三维网状支架,培育了数万个神经元形成大型三维网络,实现了对神经元电活动的高精度记录与刺激。在六个月的研究中,系统成功区分了两种不同的输入脉冲模式。研究人员计划扩大器件规模以处理更复杂任务,并期望借此探索大脑的低能耗运算机制,为降低人工智能系统功耗提供新途径。相关论文已发表于《自然・电子学》期刊。
Talker-T2AV提出了一种自回归扩散框架,用于联合生成语音和视频。其核心设计是将高级语义建模与低级细节渲染解耦:一个共享的自回归语言模型在统一的块级标记空间中对音视频进行联合推理,而两个轻量级的扩散Transformer头则分别解码出帧级的音频和视频潜在表示。该方法避免了现有模型在去噪过程中全程强制跨模态纠缠的弊端,更符合语音驱动面部合成任务的特点。在语音肖像基准测试中,该模型在唇部同步准确性、视频质量和音频质量上均优于双分支基线,实现了比级联方法更强的跨模态一致性。
本研究通过六款先进大语言模型生成23,400个故事,系统探讨人格特质对性别偏见的影响。研究采用HEXACO和黑暗三联征人格框架,以特定性别、职业生成印度职场人士的英语和印地语故事。结果显示,人格特质能显著影响性别偏见的程度与方向,黑暗三联征人格比HEXACO特质更易引发性别刻板印象,且这种关联因模型和语言而异。这表明大语言模型的性别偏见具有动态性和情境依赖性,在实际应用的人格驱动系统中,可能加剧教育、职业等内容中的不平等表征危害。
PageGuide是一款浏览器扩展,通过视觉叠加将大语言模型的回答直接锚定在网页中,以解决用户在杂乱页面中定位信息、完成多步骤任务和对抗干扰内容三大需求。它提供三种模式:Find模式原位高亮答案来源以供验证;Guide模式分步显示操作指南引导用户执行;Hide模式帮助隐藏干扰内容。一项涉及94名用户的研究表明,该工具在所有模式下均显著优于无辅助浏览,例如Hide模式使任务准确率大幅提升、完成时间缩短70%,Guide模式提高任务完成率,Find模式则减少80%的Ctrl+F使用并缩短任务时间。代码与演示已开源。
在自动驾驶和机器人感知中,异常分割对区分已知类与未知物体至关重要,但3D领域研究有限。本文提出一种高效新方法,直接在特征空间操作,通过建模内点类的特征分布来约束和识别异常样本。针对现有公开数据集场景简单、异常实例少及传感器分辨率域差异问题,我们构建了混合真实-合成3D LiDAR异常分割数据集,基于成熟语义分割基准,包含多样分布外物体和复杂环境。大量实验表明,该方法在现有真实数据集上达到最优性能,在新数据集上也有竞争力,验证了方法有效性和数据集实用性。代码与数据集已公开。
智能文档处理管道常因缺乏验证机制,导致提取错误无声传递至下游系统。RaV-IDP框架创新性地引入重建作为核心组件,在提取每个实体后,通过专用重建器将结果渲染回与原文档区域可比的形式,并由比较器评估重建与原始截图的保真度,生成无需标注的质量信号。若保真度低于实体类型阈值,系统触发基于GPT-4.1 Vision的结构化回退机制并重复验证循环,始终以原始文档区域为锚点,避免循环依赖。该框架还提供了每阶段评估方法,将管道组件与基准配对,相关代码已在GitHub开源供实验使用。
ClawMark是一个针对长期协作智能体的新型基准测试,旨在模拟外部环境独立变化的真实工作场景。它构建于一个状态可动态演化的沙盒环境,包含文件系统、电子邮件等五类服务,覆盖13个专业场景下的100项任务。评估完全依赖1537个确定性Python检查器对服务状态进行评分,未使用LLM作为评判工具。对七个前沿智能体系统的测试表明,最强模型加权得分为75.8,但严格任务完成率仅为20.0%,说明智能体常能取得部分进展却难以完整达成工作流。分析发现,性能在首次环境更新后普遍下降,适应动态变化仍是核心挑战。
视觉-语言-动作模型作为具身智能的统一基础,其安全面临物理不可逆、多模态攻击面、实时防御延迟等新挑战。本文统一梳理该领域,沿攻击与防御两条时间轴组织研究,将威胁类型与其可缓解阶段对应。内容涵盖安全定义与模型基础,并从攻击、防御、评估与部署四个维度展开综述,分析训练时与推理时的多种威胁与防御机制,探讨现有评估基准及六大部署领域的安全问题,最后指出具身轨迹认证鲁棒性、物理可实现防御等关键开放问题。
Anthropic 公司搭建了一个名为“交易计划”的 AI 智能体交易测试平台,模拟二手市场由智能体代理买卖,使用真实货币结算。实验邀请 69 名员工参与,每人获得 100 美元预算,共达成 186 笔交易,总价值超过 4000 美元。测试发现,更高级的智能体能带来更优交易结果,但用户未察觉收益差距,暴露了智能体能力差异的潜在风险。此外,智能体的初始指令对成交概率和定价无显著影响。
研究人员发布了人工智能的λ演算基准测试,旨在评估AI模型理解和执行函数式编程核心概念的能力。该基准测试包含一系列基于λ演算的挑战性问题,用以检验模型的逻辑推理、符号操作和算法实现水平。初步测试结果显示,当前主流大语言模型在该基准上的表现差异显著,部分模型得分不足50分,凸显了AI在形式化推理方面的现有局限。这一工具为衡量AI的抽象思维与计算能力提供了新的量化标准。
一项研究发现,不同架构和规模的语言模型在学习过程中,其内部对数字的表示形式高度相似。研究通过分析多种模型发现,数字的向量表征在潜在空间中呈现出清晰的线性顺序和等距间隔,这与数字本身的大小顺序一致。这一现象表明,语言模型可能通过类似机制捕捉数字的抽象概念,揭示了其内部表示的一种普遍规律。
关联讨论 1 条HuggingFace Daily Papers(社区热门论文)Anthropic 进行了一项内部实验,让 69 个 AI 代理在员工内部市场中代表人类进行为期一周的交易。结果显示,性能更强的 AI 模型能为自己代理的用户争取到更有利的交易条件,而使用较弱 AI 代理的员工则完全未察觉到自身处于劣势。这一发现警示,若未来 AI 模型开始广泛代理人类进行真实交易,此类“强者愈强”的动态可能会加剧现有的经济不平等。
关联讨论 1 条X:阿易 AI Notes (@AYi_AInotes)为突破海洋人工智能面临的数据瓶颈,研究团队发布了大规模多模态海洋语料库OceanPile。该语料库整合了声纳、水下图像、科学图文等多源异构数据,构建了统一集合OceanCorpus;通过分层海洋知识图谱引导,生成了高质量指令数据集OceanInstruction;并建立了人工标注评估基准OceanBenchmark。研究采用多阶段质量控制流程确保数据的科学性与跨模态对齐。实验表明,基于该数据训练的模型性能显著提升。全部数据集已开源,旨在推动海洋专用多模态大模型的发展。
针对模拟电路设计中跨SPICE网表、原理图和功能描述等异构表示检索的难题,本研究提出了统一的三模态检索框架AnalogRetriever。该工作基于Masala-CHAI构建高质量数据集,并通过两阶段修复流程将网表编译率提升至100%。框架采用视觉语言模型编码原理图和描述,使用端口感知关系图卷积网络编码网表,并通过课程对比学习将三者映射到共享嵌入空间。实验表明,其在所有六个跨模态检索方向上的平均Recall@1达到75.2%,显著优于基线。集成至AnalogCoder智能体框架后,能持续提升功能通过率并完成此前无法解决的任务。代码与数据集将开源。
本研究针对联邦学习中的通信瓶颈与隐私风险,提出一种结合拉普拉斯差分隐私与自适应量化的方法。该方法采用基于轮次的余弦退火策略进行全局比特调度,并依据客户端数据集熵动态分配量化比特数。在CIFAR10、MNIST及医学影像数据集上的实验表明,相比32位浮点训练,该方法在保持模型精度的同时,将通信数据总量最高减少了52.64%(MNIST)、45.06%(CIFAR10)以及31%至37%(医学影像数据集),并通过差分隐私机制提供了严格的隐私保护。
研究团队提出V-GRPO方法,通过将基于证据下界的似然替代函数与GRPO算法结合,解决了去噪生成模型与人类偏好对齐的难题。该方法降低了替代函数的方差并控制梯度步长,在文本到图像合成任务中实现了最先进的性能。相比现有方法MixGRPO和DiffusionNFT,V-GRPO分别带来2倍和3倍的加速效果,同时保持训练稳定性并与预训练目标自然对齐。
工业维护中,AI助手常因解释泛化、缺乏遥测基础而影响信任。为此,研究团队推出IndustryAssetEQA,该系统结合事件遥测表征与故障模式影响分析知识图谱,实现针对工业资产的神经符号具身问答。在覆盖旋转机械、涡扇发动机等四种资产类型的数据集上评估显示,相比纯大语言模型基线,其结构有效性最高提升0.51,反事实准确性最高提升0.47,解释蕴涵度提升0.64,并将专家评定的严重过度断言从28%降至2%(降幅约93%)。相关代码、数据集及知识图谱已开源。
研究提出EPO-Safe框架,探索大语言模型智能体能否仅凭经验发现隐藏安全目标。该框架让智能体迭代生成计划,接收稀疏的二进制危险警告,并通过反思演化出自然语言行为规范。实验在五个AI安全网格世界及其文本场景中进行,结果显示仅需1-2轮(5-15回合)即可发现安全行为,并生成可解释危险假设的人类可读规范。关键发现是,仅基于奖励的标准反思会主动损害安全,加速“奖励破解”,因此反思必须与专用安全通道结合。即使在50%非危险步骤出现虚假警告的噪声环境下,平均安全性能仅下降约15%,跨回合反思能自然过滤不一致信号。最终演化出的规范是一套可通过交互自主发现、可审计的行为规则集。
为应对大语言模型和视觉语言模型数据估值中的计算瓶颈,研究团队提出了For-Value框架。该方法基于理论分析,利用预训练模型的表征能力,通过最终隐藏层表征与预测误差的对齐关系来捕获数据价值。For-Value采用封闭表达式计算,仅需单次前向传播即可完成估值,无需昂贵的反向传播,支持高效的大规模批量计算。实验表明,该方法在识别关键数据和错误标注数据方面达到或超越了基于梯度的基线方法,同时实现了显著的效率提升。
针对生成式AI模型评估成本高昂的问题,本文提出主动评估框架ProEval。该框架利用迁移学习与预训练高斯过程代理模型,将性能估计建模为贝叶斯积分,将故障发现建模为超水平集采样,从而主动选择高信息量的测试输入。理论证明其估计器具有无偏性与有界性。在推理、安全对齐和分类任务上的实验表明,ProEval仅需8-65倍更少的样本即可实现误差在1%以内的性能估计,同时在严格评估预算下能发现更多样化的故障案例,效率显著优于基线方法。
本文提出结构化运动描述(SMD)方法,通过基于规则的确定性转换,将人体关节位置序列转化为描述关节角度、部位运动及整体轨迹的结构化文本。该表示使大型语言模型(LLM)能直接运用其预训练知识进行运动推理,无需学习专用的运动编码器或对齐模块。SMD在运动问答(BABEL-QA达66.7%,HuMMan-QA达90.1%)和运动描述(HumanML3D上R@1为0.584)任务上均超越现有最佳方法。其实用优势包括:同一文本输入经轻量级LoRA适配即可跨多种LLM使用,且其人类可读的表示支持可解释的注意力分析。
研究提出UniGenDet框架,首次将图像生成与生成图像检测任务置于统一的生成-判别架构中进行协同进化。该框架设计了共生多模态自注意力机制和统一微调算法,使生成任务能提升真实性判别的可解释性,同时真实性标准指导生成更高保真度的图像。通过检测器引导的生成对齐机制促进信息交换,在多个数据集上的实验表明,该方法取得了最先进的性能。代码已开源。
TingIS 是一个面向企业级事件发现的端到端系统,旨在从高噪声、高吞吐的客户事件中提取可操作风险情报。其核心是多阶段事件链接引擎,结合高效索引与大型语言模型,仅依据少量多样描述即可稳定合并与提取事件。系统集成级联路由机制实现精准业务归属,并采用融合领域知识、统计模式和行为过滤的多维降噪管道。在生产环境中,TingIS 每分钟处理超 2000 条消息,P90 警报延迟为 3.5 分钟,高优先级事件发现率达 95%。真实数据基准测试表明,其在路由准确性、聚类质量与信噪比上均显著优于基线方法。
针对作者风格与文本内容纠缠导致模型泛化能力差的问题,本文提出可解释作者身份变分自编码器(EAVAE)框架。该框架通过架构设计分离风格与内容表征,先以监督对比学习预训练风格编码器,再结合变分自编码器微调。其核心创新是一个新型判别器,既能区分表征是否属于同一作者或内容源,又能生成自然语言解释以增强可解释性。实验表明,EAVAE在Amazon Reviews等多个数据集上实现了最先进的作者归属性能,并在M4数据集的少样本AI生成文本检测任务中表现优异。代码与数据已开源。
针对大语言模型存在事实错误与幻觉的问题,本文提出了DAVinCI双重归因与验证框架。该框架首先将模型生成的声明归因于内部组件和外部来源,随后利用蕴含推理和置信度校准进行验证。在FEVER等数据集上的评估表明,DAVinCI将分类准确率、归因精确率、召回率和F1分数提升了5-20%。研究通过消融实验分析了关键组件的影响,并发布了可集成至现有LLM流程的模块化方案。该框架为构建可审计、可信赖的AI系统提供了可扩展路径。
本研究将时间作为可学习的视觉概念,开发了用于推理与操控视频时序的模型。通过自监督学习,模型能利用视频的多模态线索检测速度变化并估计播放速率。基于此,我们从真实世界视频中构建了最大的慢动作数据集。利用该数据,我们进一步开发了具备时序控制能力的模型,包括按指定速度生成运动的“速度条件视频生成”,以及将低帧率模糊视频转换为高帧率清晰序列的“时间超分辨率”。这项研究将时间确立为视频学习中一个可操控的感知维度,为时序可控的视频生成、时间取证检测及理解事件演变的世界模型开辟了新途径。
研究团队发布了原生统一多模态模型Omni,其训练数据涵盖文本、图像、视频、3D几何及隐藏表征。该训练过程催生了“上下文展开”机制,模型在生成预测前会显式地对多种模态表征进行跨模态推理。这一机制使模型能够聚合异构模态间的互补信息,从而更忠实地逼近共享的多模态知识流形,并提升下游推理的保真度。因此,Omni在多模态生成与理解基准测试中均表现出色,同时展示了先进的多模态上下文内生成能力。
针对交互式视频生成模型缺乏公平比较基准的问题,本文提出了首个统一测试平台WorldMark。它包含三个核心部分:一个将共享WASD动作映射到各模型原生控制的统一接口,确保六大模型能在完全相同的场景与轨迹上对比;一个涵盖500个测试案例的分层测试集,覆盖不同视角、风格与难度等级;以及一个支持视觉质量、控制对齐和世界一致性评测的模块化工具包。所有数据与代码均已公开,同时上线的在线平台World Model Arena支持模型并排对比与实时排名。
研究针对创意人脸风格化中身份保持的评估难题,提出了StyleID数据集与评估框架。该框架包含两个部分:StyleBench-H基准集收集了人类对基于扩散与流匹配生成的不同风格强度图像的异同判断;StyleBench-S监督集则通过受控二选一强制选择实验获取心理测量识别强度曲线。基于StyleBench-S对现有语义编码器进行微调,使其相似度排序与人类跨风格、跨强度的感知保持一致。实验表明,校准后的模型与人类判断的相关性显著提升,并对域外艺术家绘制肖像表现出更强的鲁棒性。所有数据集、代码与预训练模型均已公开。
VLAA-GUI 是一个模块化 GUI 智能体框架,围绕停止、恢复与搜索三个核心组件构建。其强制性完整性验证器要求每一步完成时都必须提供可观察的 UI 成功证据,并通过决策规则交叉审查完成声明。强制性循环中断器提供多层过滤机制,在重复失败时切换交互模式,在屏幕状态持续重现时强制改变策略。按需调用的搜索代理可直接向具备搜索能力的大语言模型查询陌生工作流程。框架还集成了按需调用的编码代理与接地代理。在包含 Linux 和 Windows 任务的 OSWorld 与 WindowsAgentArena 基准测试中,VLAA-GUI 在五个顶级骨干模型上均取得最佳性能,分别达到 77.5% 和 61.0% 的成功率。其中三个骨干模型在 OSWorld 上单次通过即超越人类表现。消融实验表明所有三个组件均能持续提升强骨干模型性能,而循环中断器几乎将易循环模型浪费的步骤减半。
研究提出了一种通过长时运动嵌入来高效生成运动学的方法,直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作,将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标,高效生成长而真实的运动序列,避免了传统全视频合成在探索多种可能未来时效率低下的问题。
现有文档OCR主要针对纯文本或Markdown,丢弃了使LaTeX对科学出版至关重要的结构和可执行属性。研究将科学PDF重建为可编译LaTeX的页面级任务,并为此引入了基准测试TexOCR-Bench和大规模训练语料TexOCR-Train。TexOCR-Bench采用多维评估套件,联合评估转录保真度、结构忠实度和端到端可编译性。利用TexOCR-Train,通过监督微调和强化学习训练了一个20亿参数的TexOCR模型,其强化学习的可验证奖励源自直接强制执行可编译性和引用完整性的LaTeX单元测试。在TexOCR-Bench上对21个前沿模型的实验表明,现有系统经常违反关键文档不变性,包括一致的章节结构、正确的浮动体放置和有效的标签-引用链接,这损害了编译可靠性和下游可用性。分析进一步揭示,带有可验证奖励的强化学习相比仅用监督微调能带来一致改进,尤其在结构和编译指标上。
针对多智能体系统受限于固定团队结构等问题,研究团队提出 OneManCompany 框架,将其提升至组织层面。该框架将技能、工具与配置封装为可移植的“人才”单元,通过类型化接口协调异构后端,并借助社区人才市场实现动态按需招募。组织决策采用“探索-执行-审查”树搜索,在统一分层循环中完成任务分解、执行与结果聚合,同时提供终止与无死锁的形式化保证。实验表明,OMC 在 PRDBench 上取得 84.67% 的成功率,较现有最佳方法提升 15.48 个百分点,跨领域案例验证了其通用性与适应性。
研究团队提出了一种“语义进度函数”,用于分析和校正图像与视频生成模型中常见的非线性语义演变问题。该方法通过计算序列中每帧语义嵌入的距离,并拟合一条反映累积语义变化的平滑曲线,来揭示语义节奏的不均匀性。基于此,团队进一步提出了一种语义线性化程序,能够对序列进行重新参数化,使语义变化以恒定速率展开,从而产生更平滑、连贯的过渡。该框架是模型无关的,可用于识别时间不规则性、比较不同生成器的语义节奏,并能引导生成视频或真实视频序列朝向任意目标节奏发展。
SLIDERS框架通过结构化方法解决长文档集问答的扩展性难题。它将文档关键信息提取至关系数据库,利用SQL进行高效推理,避免了传统文本拼接法的瓶颈。其核心创新是数据协调阶段,通过来源、依据和元数据检测并修复重复、不一致或不完整的记录,确保信息全局一致性。该框架在三个现有长上下文基准测试中均超越所有基线模型,平均领先GPT-4.1达6.6分;在包含390万和3600万token的两个新基准上,相较次优模型的优势分别扩大至约19分和32分,展现出卓越的大规模文档处理能力。
研究团队提出FlowAnchor,一个无需训练、基于光流的免反演视频编辑框架。现有免反演方法在视频编辑中面临挑战,多物体或长视频场景下易失败,其根源在于高维潜在空间中编辑信号不稳定,存在空间定位不准和强度衰减问题。FlowAnchor通过空间感知注意力优化确保文本引导与空间区域精确对齐,并采用自适应强度调制维持足够编辑强度,从而稳定编辑信号,引导光流向目标分布演化。实验表明,该方法在多物体和快速运动场景中能实现更忠实、时序一致且高效的视频编辑。
随着AI系统从生成文本转向通过持续交互实现目标,环境动态建模成为核心瓶颈。研究提出“能力层级×法则体系”二维分类框架:能力层级包括L1预测器(学习单步转移)、L2模拟器(多步推演)和L3演化器(自主修正模型);法则体系涵盖物理、数字、社会与科学四大领域,约束模型并标识失效场景。基于此,综合分析了400多项工作和100多个系统,涉及基于模型的强化学习、视频生成、网络智能体等。研究还提出决策中心评价原则、最小可复现评估包,并概述架构指导、开放问题与治理挑战,规划了从被动预测到模拟并最终重塑环境的世界模型路线图。