AIHOT

AI HOT

4月22日

01:14

AK@_akhaliq

智能体世界为进化通用智能体智能而扩展真实世界环境合成论文： https：//huggingface.co/papers/2604.18292

智能体具身智能论文/研究

00:14

AK@_akhaliq

MathNet 一个用于数学推理与检索的全球多模态基准论文： https：//huggingface.co/papers/2604.18584

推理论文/研究评测/基准

4月21日

23:42

AK@_akhaliq

OpenGame 面向游戏的开放智能体编码论文： https：//huggingface.co/papers/2604.18394

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EX-FIQA：利用视觉变换器的中间早期退出表示进行人脸图像质量评估

本研究首次系统探究了视觉变换器（ViT）中间层表示在人脸图像质量评估中的作用。通过分析ViT-FIQA的全部12个变换器块，发现不同深度捕获了互补的质量信息。研究提出一种无需修改架构或额外训练的分数融合框架，采用深度加权平均策略，对深层块赋予更高权重，从而有效利用ViT的层次化特征。在八个基准数据集和四种人脸识别模型上的评估表明，该策略优于单退出方法，能在显著节省计算资源的同时保持竞争力。这项工作挑战了“仅深层特征重要”的传统观点，为实际生物识别系统提供了自适应计算方案。

多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ATTN-FIQA：基于Vision Transformer注意力机制的可解释人脸图像质量评估

本文提出ATTN-FIQA，一种无需训练的人脸图像质量评估方法。该方法利用预训练Vision Transformer人脸识别模型中提取的softmax前注意力分数作为质量指标，仅需单次前向传播。其核心假设是注意力幅度内在地编码了图像质量：高质量图像产生集中、高幅度的注意力模式，退化图像则生成分散、低幅度的模式。通过在八个基准数据集和四个识别模型上的评估，证明该注意力分数能有效关联人脸图像质量，并提供空间可解释性，清晰揭示对质量判定贡献最大的面部区域。

多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过辩证对齐驯化智能体中的行动者-观察者不对称性

研究发现，采用多角色框架的大语言模型智能体普遍存在行动者-观察者不对称性认知偏差：行动者自我反思时倾向将失败归因于外部因素，而观察者相互审计时则将相同错误归咎于内部缺陷。新构建的模糊失败基准测试表明，仅切换视角即可在多数模型中触发超过20%的偏差案例。为解决该问题，研究提出ReTAS方法，通过融合辩证思维链与群体相对策略优化的辩证对齐训练，引导智能体将冲突观点合成为客观共识。实验证明，该方法能有效减少归因不一致性，并显著提升模糊场景下的故障解决率。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EmbodiedMidtrain：通过中间训练弥合视觉-语言模型与视觉-语言-动作模型之间的差距

研究提出EmbodiedMidtrain方法，以解决视觉-语言-动作模型直接沿用通用视觉-语言模型导致的性能限制。该方法首先量化两类模型的数据分布差异，发现VLA数据集中于与广泛VLM分布分离的紧凑区域。随后构建中间训练数据引擎，通过轻量可学习的邻近度估计器从大规模VLM数据池中筛选出最适配具身任务的数据，对VLM进行中间训练后再进行下游VLA微调。在三个机器人操作基准测试中，该方法使不同VLM骨干模型性能平均提升5-12%，达到与专家级VLA模型相当的水平。分析表明中间训练为VLA微调提供了更优初始化，且数据引擎能同时捕获数据集与样本层级的对齐信号。所有代码、数据与模型将开源。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

Sessa：选择性状态空间注意力

现代序列建模主要依赖Transformer和结构化状态空间模型，但两者在长上下文处理中均存在局限。Sessa提出一种新解码器架构，将注意力机制置于循环反馈路径内，从而构建多条基于注意力的历史信息传递路径。理论分析表明，在匹配条件下，Sessa可实现幂律记忆衰减O(ℓ^{-β})（0<β<1），其衰减速度慢于对应的Transformer与Mamba基线，并能实现灵活的选择性信息检索，包括影响力不随距离衰减的模式。实验证明，Sessa在长上下文基准测试中取得最强性能，同时在短上下文语言建模任务上保持竞争力。

推理论文/研究部署/工程

推荐理由：这篇论文在理论上证明了Sessa架构的长上下文记忆衰减比Transformer和Mamba更慢，并在实验中兑现了这一优势。对于关注下一代序列模型架构的研究者和开发者，这是个值得深挖的扎实信号。

06:05

AK@_akhaliq

PersonaVLM 长期个性化多模态大语言模型论文： https：//huggingface.co/papers/2604.13074

智能体多模态论文/研究

02:04

AK@_akhaliq

阐明扩散概率模型的SNR-t偏差 paper： https：//huggingface.co/papers/2604.16044

图像生成论文/研究

4月20日

08:00

HuggingFace Daily Papers（社区热门论文）

稀疏自编码器增强大语言模型对抗越狱攻击的鲁棒性研究

本研究探讨了稀疏自编码器（SAE）在增强大语言模型（LLMs）对抗越狱攻击鲁棒性中的作用。通过在推理时将预训练SAE集成到Transformer残差流中，不修改模型权重或阻断梯度。实验覆盖Gemma、LLaMA、Mistral和Qwen四个模型家族，针对GCG、BEAST等白盒攻击及三项黑盒基准测试，结果显示越狱成功率最高降低5倍，并减少了跨模型攻击的可迁移性。参数消融表明，L0稀疏度与攻击成功率呈单调剂量-反应关系，且中间层在防御效果和模型正常性能间达到最佳平衡。这些发现支持表征瓶颈假说，即稀疏投影重塑了越狱攻击所利用的优化几何结构。

安全/对齐开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLM Safety From Within：利用内部表征检测有害内容

研究团队提出了一种名为SIREN的轻量级防护模型，通过利用大型语言模型内部各层的安全相关特征来检测有害内容。该方法采用线性探测识别安全神经元，并通过自适应层加权策略整合信息，无需修改底层模型。评估显示，SIREN在多项基准测试中显著优于当前最优的开源防护模型，且可训练参数数量仅为后者的1/250。该模型对未见过的基准测试具有优异的泛化能力，支持实时流式检测，并比生成式防护模型大幅提升了推理效率。

安全/对齐论文/研究部署/工程

4月19日

08:00

HuggingFace Daily Papers（社区热门论文）

UniGeo：通过视频模型统一几何引导以实现相机可控图像编辑

针对现有相机可控图像编辑方法因几何引导碎片化导致的几何漂移与结构退化问题，研究团队提出了UniGeo新框架。该框架利用视频模型提供连续视角先验，并首次在表征、架构和损失函数三个层级系统性地统一注入几何引导。具体创新包括：表征层的帧解耦几何参考注入、架构层的几何锚点注意力对齐多视图特征，以及损失函数层的轨迹端点几何监督策略。在多个公开基准测试中，UniGeo在广泛及有限的相机运动设置下，于视觉质量和几何一致性方面均显著优于现有方法。

图像生成多模态论文/研究

4月18日

00:58

AK@_akhaliq

UniDoc-RL 具有分层动作和密集奖励的从粗到细视觉 RAG 论文： https：//huggingface.co/papers/2604.14967

检索增强多模态论文/研究

00:28

AK@_akhaliq

RAD-2 在生成器-判别器框架中扩展强化学习论文： https：//huggingface.co/papers/2604.15308

数据/训练论文/研究

00:28

AK@_akhaliq

DR3-Eval 迈向现实且可复现的深度研究评估论文： https：//huggingface.co/papers/2604.14683

智能体论文/研究评测/基准

4月17日

23:58

AK@_akhaliq

HY-World 2.0 一个用于重建、生成和模拟3D世界的多模态世界模型 paper： https：//huggingface.co/papers/2604.14268

具身智能多模态论文/研究

00:38

AK@_akhaliq

Seedance 2.0 推进视频生成以应对世界复杂性论文： https：//huggingface.co/papers/2604.14148

数据/训练视频论文/研究

关联讨论 4 条

00:08

AK@_akhaliq

Parcae 稳定循环语言模型的缩放定律论文： https：//huggingface.co/papers/2604.12946

数据/训练论文/研究

00:08

AK@_akhaliq

用于流式3D重建的几何上下文Transformer paper： https：//huggingface.co/papers/2604.14141

具身智能多模态论文/研究

00:08

AK@_akhaliq

GameWorld 迈向标准化且可验证的多模态游戏智能体评估论文： https：//huggingface.co/papers/2604.07429

智能体论文/研究评测/基准

4月16日

08:00

HuggingFace Daily Papers（社区热门论文）

为什么微调会助长幻觉，以及如何修复它

研究发现，大语言模型在监督微调过程中学习新事实时，会加剧针对预训练知识的幻觉。为解决这一问题，作者提出一种基于自蒸馏的微调方法，通过正则化输出分布漂移来促进有效的事实学习并减少幻觉。在无需获取新知识的场景下，冻结部分参数能保持任务性能并降低幻觉。实验表明，微调引发幻觉的主要原因是语义表征重叠导致的干扰，而自蒸馏方法正是通过缓解此类干扰发挥作用。

安全/对齐数据/训练论文/研究

01:37

AK@_akhaliq

GlotOCR Bench OCR 模型在少数 Unicode 文字体系之外仍表现不佳 paper： https：//huggingface.co/papers/2604.12978

多模态论文/研究评测/基准

00:07

AK@_akhaliq

连续对抗流模型 paper： https：//huggingface.co/papers/2604.11521

图像生成数据/训练论文/研究

00:07

AK@_akhaliq

ClawGUI 一个用于训练、评估和部署GUI智能体的统一框架论文： https：//huggingface.co/papers/2604.11784

智能体论文/研究部署/工程

00:07

AK@_akhaliq

KnowRL 通过强化学习与最小充分知识指导来提升大语言模型的推理能力论文： https：//huggingface.co/papers/2604.12627

推理数据/训练论文/研究

00:07

AK@_akhaliq

重新思考大型语言模型的在线策略蒸馏现象学、机制与方案论文： https：//huggingface.co/papers/2604.13016

数据/训练论文/研究

00:07

AK@_akhaliq

Habitat-GS 一种采用动态高斯泼溅的高保真导航模拟器论文： https：//huggingface.co/papers/2604.12626

具身智能论文/研究部署/工程

4月15日

20:00

Cursor Blog

精选75

更强AI模型推动开发者转向更高复杂度工作

一项针对500家公司开发者使用Cursor的八个月研究发现，在Opus 4.5和GPT-5.2等先进模型发布后，人均周AI使用量增长44%。开发者初期用更强模型完成更多同复杂度任务，4-6周后开始转向更高复杂度工作，高复杂度任务量激增68%，远超低复杂度任务的22%。媒体广告、软件工具和金融科技行业增长最为显著。任务分布呈现结构性变化：文档编写、架构设计等管理性任务增长超50%，而UI设计等独立任务仅增15%，表明开发者角色正从代码生成转向代码库管理。研究揭示了类似杰文斯悖论的效应——AI效率提升反而刺激了总需求，并可能创造新的经济活动空间。

现象/趋势编码论文/研究

推荐理由：Cursor 拿 500 家公司八个月的真实数据证明了一个反直觉结论，AI 越好开发者用得越多，而且是从做更多简单活慢慢转向啃硬骨头。做 AI 产品的人该认真想想这个杰文斯效应。

00:03

AK@_akhaliq

QuanBench+ 一个用于基于LLM的量子代码生成的统一多框架基准测试论文： https：//huggingface.co/papers/2604.08570

编码论文/研究评测/基准

00:03

AK@_akhaliq

过去并未过去记忆增强的动态奖励塑形论文： https：//huggingface.co/papers/2604.11297

数据/训练论文/研究

00:03

AK@_akhaliq

Transformers中的注意力下沉关于其利用、解释与缓解方法的研究综述论文： https：//huggingface.co/papers/2604.10098

推理论文/研究部署/工程

00:03

AK@_akhaliq

OmniShow 统一多模态条件以生成人物-物体交互视频论文： https：//huggingface.co/papers/2604.11804

多模态视频论文/研究

4月14日

09:32

AK@_akhaliq

Matrix-Game 3.0 具备长时记忆的实时流式交互世界模型论文： https：//huggingface.co/papers/2604.08995

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

平衡聚合：理解并修正GRPO中的聚合偏差

在GRPO风格强化学习中，策略梯度项的聚合方式（序列聚合与词元聚合）存在不同优化偏差：词元聚合导致符号与长度耦合，序列聚合则因序列级等权重而隐式削弱长响应。为此，本研究提出平衡聚合方法，分别在正负样本子集内计算词元级均值，再以序列计数权重组合。在Qwen2.5-Math-7B和Qwen3-1.7B模型上的实验表明，该方法在多个推理与代码生成基准上能持续提升训练稳定性与最终性能。分析进一步揭示，响应长度变异及正负样本长度差是决定聚合方法有效性的关键因素。

推理数据/训练论文/研究

01:16

AK@_akhaliq

WildDet3D 在野外扩展可提示的3D检测论文： https：//huggingface.co/papers/2604.08626

Hugging Face具身智能论文/研究

01:16

AK@_akhaliq

FORGE 面向制造场景的细粒度多模态评估论文： https：//huggingface.co/papers/2604.07413

多模态论文/研究评测/基准

01:16

AK@_akhaliq

用于引导知识密集型推理的过程奖励智能体 paper： https：//huggingface.co/papers/2604.09482

智能体推理论文/研究

4月8日

08:00

HuggingFace Daily Papers（社区热门论文）

生成、过滤、控制、重放：LLM强化学习中Rollout策略的综合综述

强化学习是提升大语言模型推理能力的核心后训练工具，但rollout（从提示到终止的采样轨迹）设计常被忽视。本综述从与优化器无关的视角，提出GFCR（生成-过滤-控制-重放）生命周期分类法，将rollout流程模块化为四个阶段：生成候选轨迹、过滤构建中间信号、控制计算分配与决策、重放重用数据。研究引入可靠性、覆盖率和成本敏感性的权衡标准，并以此框架综述了过程监督、自适应计算等方法。案例研究涵盖数学、代码/SQL等多领域，最后提供了诊断索引和开放挑战，以构建可复现、高效的rollout流程。

智能体推理论文/研究

4月7日

17:26

蚂蚁 inclusionAI：GitHub 新仓库

精选57

inclusionAI/TC-AE

研究团队发布了TC-AE，一种用于深度压缩自动编码器的新方法，旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计，显著提升了模型在压缩表示中保留信息的能力，实现了更高的压缩效率与重建质量。具体指标显示，TC-AE在多个基准测试中，相较于传统深度压缩自动编码器，将有效令牌容量提升了约30%，同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。

开源/仓库数据/训练论文/研究部署/工程

推荐理由：蚂蚁 inclusionAI 开源了 TC-AE，核心是把自编码器的 token 压缩率再往下压一个台阶，做多模态或端侧部署的团队值得看看，但离直接能用还有距离。