AIHOT

5月6日

08:00

HuggingFace Daily Papers（社区热门论文）

ReflectDrive-2是一种用于自动驾驶的掩码离散扩散规划器，它将规划表示为离散轨迹令牌并通过并行掩码解码生成。其核心是AutoEdit自编辑功能，可在同一模型内直接重写选定令牌，无需额外优化网络。模型采用两阶段训练：先通过扰动专家轨迹进行监督学习，再利用强化学习微调“决策-起草-反思”全流程，将最终驾驶奖励分配给编辑后的轨迹。强化学习使编辑效果的PDMS指标增益从0.3提升至1.9。在NAVSIM测试中，该模型仅使用摄像头输入即达到91.0 PDMS，在最优6次采样下可达94.8 PDMS，平均延迟为31.8毫秒。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TabEmbed：面向表格理解的基准测试与通用嵌入学习

基础模型在自然语言处理中建立了统一表示，但表格数据领域仍待探索。现有方法存在根本限制：基于LLM的方法缺乏检索兼容的向量输出，而文本嵌入模型常无法捕捉表格结构和数值语义。为此，我们首先引入表格嵌入基准TabBench，以评估嵌入模型的表格理解能力；然后提出首个通用嵌入模型TabEmbed，将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题，利用大规模对比学习和正样本感知的困难负样本挖掘技术，捕捉细粒度结构与数值语义。实验表明，TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型，为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。

开源生态搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

零样本逻辑规则归纳的基础模型

研究团队提出神经规则归纳器（NRI），一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限，转而使用类条件率、熵等与领域无关的统计属性来表征文字，从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器，后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行，支持仅基于预测准确性的端到端训练。评估表明，NRI在规则恢复、对噪声和虚假相关性的鲁棒性，以及在真实世界基准上的零样本迁移方面表现良好，为符号推理的基础模型开辟了新可能。

arXiv推理论文/研究

05:29

elvis@omarsar0

技能应作为可验证的部署工件

本文针对AI开发者提出关键观点，主张智能体技能应被视为默认不受信任的代码，而非仅凭签名或来源就推断其可信。当前运行时环境默认信任已签名技能的做法存在安全风险。论文强调，技能必须经过独立的门控验证流程才能被信任，否则，每次不可逆调用都需要人工介入，这在大规模应用中会退化为无效的“橡皮图章”式批准。将技能作为一等部署工件并引入验证流程，是借鉴软件供应链安全经验、避免技能库成为下一个攻击面的关键。论文呼吁在技能库普及前，通过严格验证建立安全基准。

智能体arXiv安全/对齐论文/研究

04:33

Anthropic@AnthropicAI

精选62

新Anthropic Fellows研究：模型规范中期训练（MSM）。标准的对齐方法通过期望行为的示例来训练AI。但这可能无法泛化到新情境。 MSM通过首先教导AI我们希望它们如何泛化以及原因，来解决这一问题。

Anthropic安全/对齐论文/研究

推荐理由：对齐方法的一个常见失败是训练情境下的行为无法泛化，Anthropic 这次提出 MSM 先教会 AI 如何思考规则，这是个方向性的改进，做对齐的人该看看。

04:28

Rohan Paul@rohanpaul_ai

MIT 刚刚开发出一种能控制你身体的 AI。它能移动你的手指，让你弹钢琴，即使你不会那首曲子！ AI 决定手的动作。腕部垫片向你的肌肉发送信号，因此即使你不会，手指也能动起来

具身智能论文/研究

04:27

Apple Machine Learning Research（RSS）

精选62

Stochastic KV Routing：实现自适应深度方向的缓存共享

为降低大语言模型推理时KV缓存的高昂内存开销，研究提出了一种沿模型深度维度优化的新方法。该方法通过随机KV路由，在Transformer模型的各层之间动态共享KV缓存，而非每层保留完整独立缓存。实验表明，在保持模型质量基本不变的前提下，该方法能将KV缓存的内存占用减少高达50%，为降低大模型服务成本提供了与现有时间轴压缩、淘汰技术正交的新优化路径。

论文/研究部署/工程

推荐理由：苹果这篇不走寻常路，从深度维度压缩KV缓存，是推理服务端降本的新思路，做LLM部署的值得一读。