针对概念瓶颈模型(CBM)将认知不确定性与偶然不确定性混为一谈的问题,研究团队提出了CREDENCE框架。该框架将每个概念表示为概率区间,通过不同概念头之间的分歧量化认知不确定性,并训练一个专门的模糊性输出来估计偶然不确定性。实验证明,认知不确定性正相关于模型预测错误,而偶然不确定性则紧密跟踪标注者间的真实分歧。基于此分解,该方法能支持明确的决策:自动化处理低不确定性案例,优先收集高认知不确定性数据以改进模型,将高偶然不确定性案例转交人工审核,并在两者皆高时主动弃权。代码已开源。
一项基于互联网档案馆网站的大规模分析显示,AI生成的文本已大量充斥网络。研究发现,AI文本的实际影响与公众预期不同,它正使网络内容变得更加同质化,并呈现出一种异常的欢快基调。Cloudflare的分析指出,Bytespider、Amazonbot和ClaudeBot已成为网络上最活跃的AI爬虫之一,但许多公司会隐藏其AI爬虫活动。
本研究在无噪声模拟中,使用量子支持向量机(QSVM)对MIMIC-CXR胸部X光片进行二元保险分类,基于MedSigLIP-448、RAD-DINO和ViT-patch32等医学基础模型的冻结嵌入。通过两层公平比较框架,第一层未调优QSVM与未调优线性SVM对比,QSVM在所有18个测试配置中赢得少数类F1分数(17个p<0.001),在q=11时平均F1达0.343,经典核仅0.050。第二层未调优QSVM与C-调优RBF SVM对比,QSVM赢得所有七个配置。特征谱分析显示量子核有效秩在q=11达69.80,远超线性核,全量子比特扫描揭示架构依赖浓度起始。代码已开源。
本研究通过116次预训练实验,量化了循环语言模型中每次额外循环在验证损失上等效的独特参数量。实验拟合出联合缩放定律,得到循环等价指数φ=0.46。该值介于完全等效(φ=1)与无容量增益(φ=0)之间,表明每次循环都能在固定训练计算成本下可预测地提升性能。例如,一个4次循环的4.1亿参数模型,性能相当于5.8亿参数的非循环模型,但训练成本却与10亿参数的相当。研究进一步通过截断反向传播(φ降至0.38)和超连接(φ升至0.65)两个探测实验,展示了φ作为衡量工具的价值,能有效区分真正的架构改进与单纯的计算增益。
FlashQLA 发布了一组专为梯度下降网络优化的融合线性注意力内核。新内核在设计上对计算模式和后向传播更加友好,旨在提升训练效率。该技术通过优化内核融合策略,改进了注意力机制的计算性能,是提升大规模模型训练速度的关键底层优化。
针对视觉语言模型在强化学习训练中面临的监督信号粗粒度问题,本研究提出了Perceval过程奖励模型。该模型能够从模型回应中提取图像相关声明,并与视觉证据进行逐项比对,从而精确定位感知错误的片段。在训练阶段,Perceval被整合进强化学习框架,通过对幻觉片段施加标记级惩罚,提供细粒度的监督信号。在推理阶段,该模型可截断错误回应并引导模型重新生成或反思,实现测试时扩展。实验表明,该方法在多领域基准测试中显著提升了经过RL训练的VLM性能,且其测试时扩展策略也优于多数投票等方法。代码与数据已公开。
加州大学圣克鲁兹分校研究团队开发出一款名为Neo的人工智能算法,可有效消除地面望远镜因大气湍流导致的图像畸变。该算法基于条件生成对抗网络,通过训练使地面观测图像的清晰度提升至太空望远镜水准,天体形态参数测量准确度提高2至10倍。目前该技术已应用于智利薇拉・C・鲁宾天文台,该台配备8.4米口径反射镜,造价约8亿美元。此前类似AI算法已将詹姆斯・韦布空间望远镜的数据分析时间从数年缩短至数日,助力多项天文发现。
针对现有过程奖励模型在动态数据分析任务中的不足,研究团队开发了DataPRM。该模型能作为主动验证器与环境交互,探测中间状态以发现静默错误,并采用反思感知的三元奖励策略区分可纠正与不可恢复的错误。通过多样性轨迹生成和知识增强的步骤级标注,构建了超过8000个高质量训练实例。实验表明,仅40亿参数的DataPRM在使用Best-of-N推理时,能显著提升下游大模型在多个基准上的性能,并展现出稳健的泛化能力。将其集成到强化学习中,也显著优于结果奖励基线。
针对现有视频基础模型常出现几何不一致的问题,研究团队提出World-R1框架。该框架无需修改底层模型架构,而是通过强化学习,利用预训练的3D基础模型和视觉语言模型的反馈进行优化,从而将视频生成与3D约束对齐。团队构建了专用的世界模拟纯文本数据集,并采用周期性解耦训练策略来平衡几何一致性与场景动态流畅性。评估表明,该方法在保持基础模型原有视觉质量的同时,显著提升了3D一致性,有效弥合了视频生成与可扩展世界模拟之间的差距。
研究指出,在短上下文窗口下对大型语言模型进行标准GRPO后训练,虽能压缩推理步骤,但会导致训练不稳定和精度下降。为此,团队提出步骤级优势选择方法,该方法在推理步骤层面进行操作,对正确轨迹中的低置信度步骤和验证失败轨迹中的高置信度步骤分配零优势值,从而有效过滤因截断或验证器问题导致的不可靠步骤。在多项数学与通用推理基准测试中,该方法将平均Pass@1准确率提升了0.86个百分点,同时将平均推理长度降低了16.3%,实现了更优的精度与效率平衡。
Tuna-2是一种原生统一的跨模态模型,它摒弃了传统的VAE等模块化视觉编码器,直接通过简单的图像块嵌入层处理像素,统一执行视觉理解与生成任务。实验表明,该模型在多项跨模态基准测试中取得了最先进的性能,证明其像素空间建模在高质量图像生成上可与潜在空间方法竞争。尽管基于编码器的变体在预训练早期收敛更快,但Tuna-2的无编码器设计在大规模训练后实现了更强的跨模态理解能力,尤其在细粒度视觉感知任务上表现突出。这表明预训练视觉编码器对跨模态建模并非必需,端到端的像素学习为视觉任务提供了可扩展的新路径。
研究团队提出了Zero-to-CAD框架,用于大规模合成可执行的CAD构造序列。该方法将大型语言模型嵌入一个反馈驱动的CAD环境中,通过智能体搜索的方式迭代生成、执行和验证代码,以提升几何有效性和操作多样性。该框架成功合成了约一百万个可执行、可读且可编辑的CAD序列,其操作词汇远超基础的草图拉伸流程。团队同时发布了一个包含10万个高质量模型的精选子集。基于此合成数据微调的视觉语言模型,能够从多视角图像重建可编辑的CAD程序,其性能超越了包括GPT-5.2在内的强基线,实现了无需真实构造历史数据即可引导序列生成能力。Zero-to-CAD弥合了几何规模与参数化可解释性之间的鸿沟。
现有视觉语言模型(VLM)的空间智能评估存在系统性缺陷:基于点云标注的问答对在视频评估中因重建误差和标注伪影导致答案错误或模糊,且评估常假设全场景访问,而实际模型仅处理稀疏采样帧。为提升评估有效性,我们提出ReVSI基准,通过重新标注5个数据集的381个场景并严格生成可信问答对,确保问题在模型实际输入下可答且答案正确。该基准提供多种帧预算变体及细粒度物体可见性元数据,支持可控诊断分析。在ReVSI上的评估揭示了以往基准掩盖的系统性故障模式,实现了更可靠、更具诊断性的空间智能评估。
针对现有镜头边界检测方法存在边界不可解释、遗漏细微间断、依赖噪声标注与过时基准等问题,本研究提出OmniShotCut方法。该方法将镜头边界检测构建为结构化关系预测任务,通过基于镜头查询的密集视频Transformer,联合估计镜头范围及其内外关系。为规避人工标注不精确,采用全合成过渡合成流程自动生成带精确边界及参数化变体的主要过渡类型。同时,发布了支持整体与诊断评估的现代宽领域基准OmniShotCutBench。
阿里巴巴达摩院联合广东省人民医院等机构,研发出肠癌筛查AI模型DAMO COCA。该模型基于平扫CT影像,采用两阶段深度学习架构,在国际上首次实现了无需肠道准备、患者“无感”的肠癌机会性筛查。在回顾2.7万人影像的试验中,模型精准识别出5例漏诊肠癌,敏感性达86.6%,特异性高达99.8%。与10名影像科医生相比,其敏感性显著高出20.4%,并能辅助医生将敏感性提升14.5%。相关成果已发表于顶级期刊《肿瘤学年鉴》。
NVIDIA 在 Hugging Face 上发布了一款名为 NV-Raw2Insights-US 的物理信息人工智能模型,专门用于自适应超声成像。该模型能够直接处理原始超声射频数据,实时生成高质量的诊断图像。它通过结合物理定律与深度学习,显著提升了图像分辨率和对比度,同时将传统处理流程中的多个步骤整合为单一前向传播,大幅提高了计算效率。这一进展有望推动超声设备向更便携、智能和精准的方向发展。
研究提出基于Tsallis q-对数的损失函数族J_Q,用于在仅有输出级监督的后训练中调整推理模型。该族在利用极(q=0,对应RLVR)和密度估计极(q=1)间连续插值,所有成员共享相同梯度方向,仅通过标量因子P_{θ^{-q}}重加权。该机制解决了冷启动停滞问题:利用极逃离需Ω(1/p_0)时间,而密度估计极仅需Θ(log(1/p_0)),中间q值权衡逃离速度与噪声记忆。研究推导出两种蒙特卡洛估计器:梯度放大强化学习(GARL)与后验衰减微调(PAFT)。在多个数据集上,q=0.75的GARL显著缓解了冷启动停滞,在GRPO完全失败时成功逃离;在热启动中,低q的GARL在FinQA上表现主导,而PAFT在q=0.75时为其他数据集提供了稳定梯度,在HotPotQA上达到最佳结果47.9 maj@16。
研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。
StereoFoley是一个视频到音频的生成框架,能生成48kHz、语义对齐、时间同步且空间准确的立体声。现有视频生成音频模型大多局限于单声道或无法实现对象感知的立体声成像,主要受限于缺乏专业混音、空间准确的视频-音频数据集。该研究首先开发了一个从视频生成立体声的基础模型,在语义准确性上达到了与当前最先进V2A模型相当的性能。
条件扩散模型展现出组合泛化能力,能生成超出训练分布的条件组合样本,但其机制尚不明确。研究聚焦于长度泛化,即生成比训练所见更多数量物体的图像。在受控的CLEVR场景中发现,模型仅在某些情况下能实现长度泛化,表明其并非总能掌握底层组合结构。通过分析扩散过程的局部动态,研究揭示了泛化成功与失败案例中条件交互模式的系统性差异,为理解生成式模型的组合推理边界提供了新视角。
本研究通过一项为期21天的真实资本链上交易实验,探讨了自主语言模型代理的可靠性。在受控市场中,3,505个用户注资的代理交易真实ETH,产生了750万次调用、约30万次链上操作及2000万美元交易量,提交交易的结算成功率达99.9%。研究发现,可靠性不仅依赖于基础模型,更源于操作层设计,包括提示编译、策略验证与执行防护等。上线前测试揭示了纯文本基准难以评估的故障模式,如伪造交易规则和手续费瘫痪,通过针对性框架调整,相关故障率显著下降,受影响测试群体的资本部署率从42.9%提升至78.0%。研究表明,管理真实资本的代理需在从用户指令到结算的完整路径上进行评估。
针对开源大语言模型在模拟真实对话的工具使用场景中,因规模较小、上下文有限导致的错误累积问题,研究团队提出故障感知元智能体框架FAMA。该框架首先分析基线智能体的故障轨迹以识别常见错误,随后在决策前启动最小规模的专用智能体,向工具使用智能体注入针对性上下文以应对这些故障。实验表明,FAMA使多种开源LLM在评估中的性能较基线提升最高达27%,证明通过专用智能体针对性处理常见故障,能有效提升多轮次工具使用智能体的可靠性。
本文针对联邦学习中冗余或噪声样本导致模型性能下降的问题,提出一种基于多任务自动编码器的样本选择方法。该方法通过中央服务器协调,采用OCSVM、隔离森林和自适应损失阈值等无监督异常检测技术过滤客户端噪声样本,并引入中央服务器控制的多类深度支持向量数据描述损失以增强特征选择。在CIFAR10和MNIST数据集上的实验表明,在非独立同分布设置及高达40%的噪声水平下,基于损失的样本选择能显著提升模型精度,其中CIFAR10上最高提升7.02%。联邦SVDD损失进一步优化了特征选择,额外带来最高0.99%的精度提升。
研究团队提出PSP(音素替换剖面),一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度:卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统,研究发现:卷舌音错误率随音系难度递增;PSP评估结果与传统可懂度指标排序存在差异;没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。
Praxy Voice提出一种无需商业训练数据、不重新训练声学解码器,即可将非印度语系基础TTS模型提升至商业级印度语输出质量的方法。其结合三项技术:BUPS统一音素空间将七种印度文字罗马化;仅在文本标记预测器上训练LoRA适配器;以及通过同语言参考音频与特定采样配置实现语音提示恢复。在泰卢固语、泰米尔语和印地语的评估中,该系统在音韵指标上达到或略微超越商业基线。针对语码混合场景,额外引入IndicF5分支,显著降低了混合语句的错误率。项目已开源相关资源。
RADIO-ViPE 是一个在线语义SLAM系统,能够在动态环境中实现几何感知的开放词汇关联,将任意自然语言查询与定位的3D区域和物体进行匹配。该系统直接处理原始单目RGB视频流,无需预先获取相机内参、深度传感器或位姿初始化。它通过将来自聚合基础模型的多模态嵌入与几何场景信息在初始化、优化和因子图连接中进行紧耦合,提升了多模态地图的一致性。优化过程采用了自适应鲁棒核函数,以同时处理主动移动的物体和因智能体移动而改变位置的场景元素。实验表明,RADIO-ViPE 在动态TUM-RGBD基准测试中取得了最先进的结果,其性能可与依赖标定数据和静态场景假设的离线开放词汇方法相竞争。该系统为自主机器人和无约束野外视频流提供了鲁棒的开放词汇语义基础。
每年系统故障导致损失超万亿美元,工程师需通过分析时间序列数据快速定位问题。时间序列问答(TSQA)是关键运维任务,对AI模型构成挑战。为此,研究团队推出ARFBench基准,基于Datadog真实内部事件及遥测数据构建。测试显示,当前领先的大型语言模型、视觉语言模型和时间序列基础模型在ARFBench上表现均有较大改进空间。团队提出混合TSFM-VLM模型,其整体性能接近前沿水平,为TSQA任务提供了新评估框架和改进方向。
研究提出DiGSeg框架,将预训练扩散模型转化为通用分割器。该方法将输入图像与真实掩码编码为潜变量,作为扩散U-Net的条件输入,并通过并行CLIP文本通路注入多尺度语言特征,实现文本与视觉表征的对齐。实验表明,该框架在标准语义分割基准上取得领先性能,并在开放词汇泛化及跨域迁移(医疗、遥感、农业)中表现优异,且无需针对特定领域调整模型架构。这证明扩散模型不仅能用于图像生成,也可作为强大的通用视觉理解模型,缩小了生成与理解任务间的差距。
X2SAM是一个统一的分割多模态大语言模型,它将图像中的任意分割能力扩展至视频。该模型结合大语言模型与存储引导视觉特征的掩码记忆模块,能依据对话指令和视觉提示生成时间一致的视频掩码,并支持图像与视频输入下的通用、开放词汇、指代、推理及交互式分割。研究团队提出了视频视觉基础分割基准V-VGD,用于评估模型根据交互式视觉提示分割视频物体轨迹的能力。通过跨异构数据集的统一联合训练,X2SAM在视频分割上表现优异,在图像分割基准上保持竞争力,同时保留了通用的图像与视频对话能力。
本文提出软各向异性图(SAD),一种基于图像平面自适应站点参数化的显式可微分图像表示方法。SAD通过各站点定义各向异性度量与加权距离,并依据像素前K个站点的softmax混合计算颜色,形成具有可学习温度的软加权Voronoi划分,在保持清晰边界的同时保留有效梯度。该方法支持基于前K映射的高效渲染,并采用受跳转扩散启发的传播方案更新站点。在Kodak数据集上,SAD以2.2秒编码时间达到46.0 dB PSNR,训练速度比先进基线快4-19倍,且在相同码率下性能更优。SAD还能无缝集成至可微分流程,并具备快速随机访问与紧凑存储优势。
当前LLM智能体技能多以文本描述,导致机器难以解析利用。本研究基于经典知识表示理论,首次提出结构化技能表示法——调度-结构-逻辑表示法,将技能解耦为调度信号、执行结构和逻辑证据。通过基于LLM的标准化器实现该方法,并在技能发现与风险评估任务上评估。结果显示,该方法显著优于纯文本基线:技能发现的MRR从0.573提升至0.707,风险评估的宏观F1分数从0.744提升至0.787。这表明显式、基于来源的结构化表示能提升技能的可搜索性与可审查性,是迈向更可检查、可重用、可操作技能表示的重要实践步骤。
研究指出,将人类多维度的视觉偏好压缩为二元胜负标签会产生严重的标签噪声,误导扩散模型直接偏好优化训练。为解决此问题,团队提出了Semi-DPO方法。该方法将标注一致的图像对视为干净数据,将存在冲突的视为带噪声的未标注数据。训练过程首先在共识过滤的干净子集上进行,然后利用该模型作为隐式分类器为噪声集生成伪标签,进行迭代优化。实验表明,Semi-DPO取得了最先进的性能,显著提升了与复杂人类偏好的对齐度,且无需额外人工标注或显式的奖励模型。代码和模型将在指定GitHub仓库开源。
研究分析了100个模型(包括医疗和法律领域广泛部署的微调模型),发现常规微调会导致模型安全性能出现显著、异质且常相互矛盾的变化。模型在某些安全评测上提升的同时,在其他评测上明显退化,且不同评测工具结论分歧巨大。这表明基础模型的安全属性无法在下游适配中稳定保持,当前依赖基座模型评估的治理与部署模式存在严重局限。若不在部署相关场景中显式重新评估微调模型,将无法有效管控下游风险,这种缺陷在高风险领域尤为突出,并对现行问责范式构成挑战。
本文提出“探索性采样”解码方法,以增强大语言模型生成内容的语义多样性。该方法在推理时训练一个轻量级“蒸馏器”,通过预测模型深层隐藏状态来建模其表示转换过程,并将预测误差作为新颖性信号,以此重新加权候选token,引导解码偏向未被充分探索的语义模式。该方法实现了异步训练-推理流水线,最坏情况下开销低于5%。实验表明,该方法显著提升了推理模型的Pass@k效率,在数学、科学和代码生成基准测试中表现出稳健的泛化能力,并在创意写作中打破了多样性与连贯性之间的权衡。
针对现有可控扩散方法因架构孤立、流程不兼容导致的碎片化问题,研究团队提出统一开源插件框架Diffusion Templates。该框架通过模板模型、模板缓存和模板管道三大核心组件,实现基础模型推理与可控能力注入的解耦。其系统级接口设计支持KV-Cache、LoRA等多种异构能力载体。基于此构建的模型库覆盖了结构控制、图像编辑、超分辨率等十类任务,展现了框架在模块化、可组合性及跨模型可扩展性方面的统一能力。所有代码、模型与数据集将开源。
用户模拟因其广泛的应用潜力在计算机科学中长期扮演重要角色,而对话行为的模拟是核心研究领域。大语言模型的进展通过生成高保真合成用户对话,显著推动了该领域发展。本文综述了基于LLM的对话用户模拟最新进展,提出一个涵盖用户粒度和模拟目标的新分类法,并系统分析了核心技术与评估方法。研究旨在向学界同步该领域最新动态,并通过识别开放挑战、在统一框架下梳理现有工作,进一步促进未来研究。
随着公平与负责任人工智能相关立法推进,推荐系统公平性评估日益重要,但现有众多离线公平性指标缺乏稳健性分析,其局限性未被充分认知。研究系统评估了基于用户与物品、群体与个体等不同维度的公平性指标,通过理论与实证分析揭示了其在可解释性、表达力与适用性上的缺陷。针对这些不足,研究提出了新的评估方法与改进指标,并制定了实际场景中公平性指标的选择指南,推动推荐系统公平性离线评估领域的发展。
为实现真正的数字自主性,研究团队推出了AutoGUI-v2基准,旨在评估智能体对图形用户界面(GUI)的深度功能理解与交互结果预测能力。该基准通过一种新颖的视觉-语言模型与人类协作流程构建,递归解析多平台截图,生成了涵盖六个操作系统的2,753项任务,严格测试区域与元素级语义理解、功能定位及动态状态预测。评估结果显示,基于智能体数据微调的开源模型在功能定位上表现优异,而商业模型则在功能描述上领先。关键发现是,所有模型在面对非常见操作的复杂交互逻辑时均表现不佳,表明深度功能理解仍是当前面临的核心挑战。
本文提出GoClick,一个仅含2.3亿参数的轻量级视觉语言模型,用于图形用户界面元素定位。针对资源受限设备,模型采用编码器-解码器架构,在小参数量下优于仅解码器架构。通过渐进式数据精炼流程,从1080万原始数据中筛选出380万高质量样本进行训练,显著提升定位精度。实验表明,GoClick在多项基准测试中达到与大型模型相当的准确度,同时保持小体积和高推理速度。集成于设备-云端协作框架时,能有效协助云端任务规划器精确定位元素,提升任务成功率。
策略蒸馏在多轮智能体任务中存在轨迹级KL不稳定问题,即KL散度随错误累积上升,导致训练不稳定。为此,研究提出时序课程策略蒸馏框架TCOD,通过课程学习控制学生模型接触的轨迹深度,从短轨迹逐步扩展到长轨迹。在ALFWorld、WebShop和ScienceWorld基准上的实验表明,TCOD有效抑制KL散度上升,提升训练稳定性,并将智能体性能较原始策略蒸馏最高提升18个百分点。进一步评估显示,TCOD甚至能超越教师模型性能,并泛化至教师失败的任务。