AIHOT

5月6日

14:16

IT之家（RSS）

越障高度 40mm：小米米家扫拖机器人 6 水箱版 1899 元、上下水版 2206 元

小米米家扫拖机器人6推出限时优惠。该机器人具备28000Pa吸力和40mm越障高度。原价水箱版2699元、上下水版3099元，现叠加PLUS立减和10%政府补贴后，水箱版到手价1899.21元，上下水版2206.93元。此外，以旧换新可享额外补贴，水箱版补贴100元，上下水版补贴200元。

其他

14:16

IT之家（RSS）

卡普空回应 DLSS 5"美颜"格蕾丝：感谢玩家维护《生化危机：安魂曲》游戏女主形象

英伟达在GTC 2026展示DLSS 5技术时，将《生化危机：安魂曲》女主角格蕾丝的形象AI修改为轮廓更锐利、眼睛不同、嘴唇更丰满的“美颜”效果，引发玩家强烈反感。玩家普遍认为原版设计更具真实感和个性。对此，游戏总监中西晃史回应称，玩家维护原版形象恰恰证明这个新角色获得了成功和认可，这让他对原创设计充满信心。制作人熊泽正人也表示，玩家对原版外观的强烈认同是积极信号。

图像生成行业动态

14:16

IT之家（RSS）

对标 OpenClaw：谷歌正内测全新 AI 智能体"Remy"

谷歌正在内部测试一款名为“Remy”的全新AI个人智能体，旨在对标此前走红的OpenClaw。该智能体基于仅供员工使用的Gemini专属版本开发，被定位为工作、学业和生活中的全天候助理。其核心在于能代表用户自主执行实际任务，而不仅仅是回答问题。Remy深度集成Gmail、Chrome、Calendar等谷歌服务，可主动监控事项、处理复杂任务并学习用户偏好。目前项目处于内部测试阶段，尚未公布公开上线时间，其进展有望在即将到来的谷歌I/O大会上披露。

智能体Google产品更新

14:16

IT之家（RSS）

曝谷歌酝酿 Gemini 新订阅层级：100 美元档位填补 Pro 与 Ultra 空白

据科技媒体9to5Google报道，谷歌正开发代号“Neon”的Gemini AI新订阅层级，暂定名为“Google AI Ultra Lite”，预计定价约每月100美元。该层级旨在填补现有20美元的AI Pro与250美元的AI Ultra之间的市场空白，面向需要比Pro更多资源、又无需承担Ultra企业级溢价的高级用户，将与Anthropic和OpenAI展开竞争。同时，谷歌计划推出专属仪表板，帮助用户通过“5小时限制”、“每周预算”和“超额积分”三项核心数据，精确追踪和规划AI使用配额与Token消耗。

Google产品更新

14:16

IT之家（RSS）

超高 PCIe 通道数量： Astera Labs 发布 Scorpio X-Series 320 Lane 交换芯片

Astera Labs 发布了拥有320条可配置通道的Scorpio X-Series PCIe交换芯片，号称业界规模最大的开放式内存语义互连交换芯片。该产品可用单颗芯片替代多颗传统低通道数量交换芯片，从而简化AI系统互联拓扑，实现更低延迟、更大规模的集群扩展。其硬件加速的Hypercast和网内计算引擎可将集体运算性能提升高达2倍，提高每瓦特的词元处理能力。同时，公司公布了2026年第一季度创纪录的财务数据，营业收入达3.084亿美元，环比增长14%，同比增长93%。

产品更新部署/工程

14:16

IT之家（RSS）

苏姿丰称 AMD 已向核心客户送样 MI450 GPU，下半年提高 AI 机架 Helios 出货量

AMD首席执行官苏姿丰在财报会议上宣布，已开始向核心客户送样Instinct MI450 GPU加速卡，并计划在下半年逐步提高Helios AI机架的出货量。客户需求强劲，已超出公司对2027年的内部预期，OpenAI等已签署大规模部署协议。MI450基于CDNA 5架构，其FP8算力较前代翻倍，并升级搭载了HBM4内存。该系列被AMD用来对标英伟达的竞品平台，其内存容量和横向扩展带宽具备优势。

产品更新推理

13:31

Hacker News 热门（buzzing.cc 中文翻译）

精选70

代理商现在可以创建 Cloudflare 账户、购买域名并进行部署

Cloudflare宣布其代理商合作伙伴现可直接创建Cloudflare账户、购买域名并部署服务。这一功能整合了账户创建、域名注册和项目部署流程，简化了代理商的管理与操作步骤。此举旨在提升合作伙伴的自主性和效率，进一步扩展Cloudflare的生态系统与服务覆盖范围。

智能体产品更新部署/工程

推荐理由：Cloudflare 把账户注册、买域名、部署全开放给 Agent，等于给 AI 发了张建站许可证，做自主 Agent 和自动化运维的人可以直接拿来用。

13:16

IT之家（RSS）

AMD 苏姿丰：智能体 AI 重构算力格局，CPU 与 GPU 配比向 1：1 演进

AMD CEO苏姿丰在财报会议上指出，智能体AI正重塑服务器CPU市场。她表示，AI是增长核心驱动力，云服务商正扩展部署AMD霄龙处理器。智能体AI工作负载需要额外CPU算力进行任务编排和数据移动，这推动了CPU需求的强劲增长。苏姿丰预计，在智能体AI推动下，服务器CPU市场的年复合增长率可能达到35%。她强调CPU需求是对GPU市场的补充，并透露CPU与GPU的配比正从传统的1:4或1:8向1:1演进，在智能体密集场景中CPU数量甚至可能超过GPU。

推理现象/趋势部署/工程

13:16

IT之家（RSS）

中国移动上线超 8 万名数智员工，将推移动版智能助理

中国移动在人工智能生态大会上宣布已上线超过8万名“数智员工”，这些AI助手已融入网络鉴伪、研发设计、营销服务等业务流程。同时，公司计划推出“移动版智能助理”，并升级中国移动App、云电脑、云盘等服务入口，以降低人工智能应用门槛。中国移动致力于为10亿手机客户和3亿家庭客户提供数字生活服务，推动全量产品和服务嵌入AI。

智能体行业动态

13:16

IT之家（RSS）

雷柏推出 49 元无线 AI 办公鼠标 C10，可一键唤醒豆包

雷柏新上架无线AI办公鼠标C10，售价49元，提供岩灰、云白、雾蓝三种配色。其核心卖点是支持按键自定义，可一键唤醒豆包AI助手。鼠标配备轻音按键，采用自研驱动AI HUB，通过AA电池供电，续航可达12个月。连接方面支持2.4GHz，具备七档DPI调节和500Hz回报率。

产品更新端侧

12:20

HuggingFace Daily Papers（社区热门论文）

PatRe：一个用于专利审查的全周期审查意见与答复生成基准

针对现有基准将专利审查简化为分类或静态抽取的局限，本文提出了PatRe，首个模拟完整专利审查生命周期（包括审查意见生成与申请人答复）的基准。它包含480个真实案例，支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现，专有与开源模型性能存在差异，且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时，兼具潜力与当前局限。相关代码与数据集已开源。

arXiv论文/研究评测/基准

12:16

IT之家（RSS）

全国智能化医疗器械标准化工作组获批筹建，将填补我国该领域空白

市场监管总局近日批准筹建全国智能化医疗器械标准化工作组，由国家药监局负责管理。该工作组将负责人工智能医疗器械、医用机器人、脑机接口医疗器械及融合技术类医疗器械等领域的标准化工作。此举旨在顺应新技术与医疗器械深度融合的趋势，填补我国在该领域标准化技术组织的空白，进一步完善医疗器械标准体系。下一步，相关部门将加快构建系统完备、科学规范且与国际接轨的智能化医疗器械标准体系。

政策/监管

12:16

IT之家（RSS）

全球 AI 电源出货激增，海外公司大规模采购国产 MCU 芯片

海外AI电源与光通信公司正大规模采购国产MCU芯片，以应对算力扩张带来的电源需求。服务器与光通信电源功率大幅提升导致MCU用量短缺，MCU作为AI电源的核心控制中枢，需满足GPU/NPU瞬时大电流、高功率密度的供电挑战。需求激增已传导至上游产业链，国产MCU厂商中微半导今年1月宣布对MCU等产品提价15%至50%，国民技术也于4月起将部分产品价格上调15%至20%。

行业动态部署/工程

11:16

IT之家（RSS）

华为鸿蒙 HarmonyOS 6.1 系统"小艺帮记"获热更新，上线身份验证、同步收藏功能

华为鸿蒙HarmonyOS 6.1系统的AI记忆管家“小艺帮记”正通过热更新上线两项新功能。身份验证功能开启后，查看个人敏感信息时需要验证身份以增强安全性。同步收藏功能可将应用内收藏的内容自动同步至小艺帮记，便于集中访问和管理，并支持智能合集、AI摘要、AI问答及AI播客等智能化处理。该应用本身支持一站式记录身份证、生日、地址、订单等常用信息，并能收藏与管理在线网页和本地文件。

智能体产品更新端侧

11:16

IT之家（RSS）

我国测控装备智能化测评技术迈上新台阶，已面向 6 类典型测控装备开展智能化测评验证

市场监管总局组织科技力量，在测控装备智能化测评技术上取得系列创新。研究团队利用自然语言处理与人工智能聚类技术，构建了通用及典型测控装备的智能化测评指标体系和评估模型，并形成相关标准。同时，攻克了数字孪生测评方法等关键技术，研发了数字孪生体测量系统与物理实体测评装置，实现了智能化水平的可测试与可量化。目前，相关成果已形成综合测评系统与认证模式，面向6类典型装备开展了测评验证，搭建了3套实物验证场景，构建了测试、计量、认证一体化的评测体系。

行业动态部署/工程

11:01

Hacker News 热门（buzzing.cc 中文翻译）

Show HN： Airbyte 代理--跨多个数据源的代理上下文

Airbyte 代理发布，为跨多个数据源的智能体提供上下文支持。该工具允许开发者和数据团队将不同来源的数据（如数据库、API、文件）统一接入，并转化为可供AI代理或自动化流程使用的结构化上下文。其在Hacker News上获得102点关注，显示社区关注度较高。这一方案旨在简化多源数据集成流程，提升智能体处理复杂任务的效率。

智能体MCP/工具产品更新

10:27

Claude Code：GitHub Releases（RSS）

精选58

Claude Code v2.1.129 版本更新

Claude Code 发布 v2.1.129 版本，带来多项功能新增与问题修复。新增功能包括支持通过 `--plugin-url` 从 URL 获取插件压缩包、新增 `CLAUDE_CODE_FORCE_SYNC_OUTPUT` 环境变量以强制启用终端同步输出，以及为 Homebrew 或 WinGet 安装提供后台自动更新提示。功能调整方面，插件清单中的 `themes` 和 `monitors` 现在建议在 `"experimental"` 下声明；网关模型发现功能改为通过环境变量手动启用；Ctrl+R 历史记录选择器恢复为默认搜索所有项目的提示。此外，修复了约 20 项问题，涉及 `/clear` 命令、会话标题显示、外部编辑器切换、令牌浪费、OAuth 凭证刷新、缓存警告等多个方面。

Anthropic产品更新编码

推荐理由：Claude Code 用户最烦的 session 消失、token 浪费和缓存降级问题这次都修了，还支持从 URL 加载插件，日常体验会顺滑不少。

10:20

HuggingFace Daily Papers（社区热门论文）

SymptomAI：面向日常症状评估的对话式AI代理

研究通过Fitbit应用向13,917名参与者随机部署SymptomAI对话代理进行症状访谈与鉴别诊断。在1,228名报告临床诊断的参与者中，SymptomAI的诊断准确性显著高于独立临床医生（OR = 2.47）。采用专用症状访谈策略（在诊断前获取额外信息）的代理表现优于用户引导对话。基于1,509个普通人群对话的辅助分析验证了结果的普适性。此外，利用SymptomAI诊断标签分析超50万天可穿戴数据发现，急性感染（如流感）与生理指标变化存在强关联（OR > 7）。

智能体arXiv论文/研究

10:20

HuggingFace Daily Papers（社区热门论文）

精选72

OpenSeeker-v2：利用高信息量、高难度轨迹突破搜索智能体的极限

本研究提出了一种仅通过监督微调（SFT）训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进：扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2，在四个基准测试中均取得了领先性能，全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体，其模型权重将开源以促进社区研究。

智能体开源生态搜索论文/研究

推荐理由：纯学术团队仅靠SFT和一万条数据，就在多个搜索基准上反超工业级管线，并且开源模型。这证明高质量数据比烧钱RL更关键，做Agent的朋友值得认真看。

10:20

HuggingFace Daily Papers（社区热门论文）

Workspace-Bench 1.0：针对具有大规模文件依赖的工作空间任务的AI智能体基准测试

本文提出了Workspace-Bench 1.0基准，用于评估AI智能体在需要处理大规模异构文件依赖的真实工作空间任务中的能力。该基准构建了包含5类工作者档案、74种文件类型、超2万个文件（最大20GB）的模拟工作空间，并设计了388项附带文件依赖图的任务，总计7399个评分项，要求智能体进行跨文件检索、上下文推理与自适应决策。同时提供的精简版Workspace-Bench-Lite（100项任务）可将评估成本降低约70%。对4种主流智能体框架和7个基础模型的测试表明，最佳智能体得分仅为68.7%，远低于人类表现的80.7%，平均表现仅47.4%，揭示出现有AI在此类任务上仍远未达到可靠水平。

智能体论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

交互式世界模型基准测试与统一动作生成框架

为系统评估交互式世界模型的物理交互能力，研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集，并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题，研究设计了一个统一的动作生成框架，构建了六类任务共4900个测试样本，以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估，研究揭示了当前关键局限，为未来方向提供了见解。相关排行榜已公开。

arXiv具身智能多模态论文/研究

10:15

IT之家（RSS）

OpenAI 总裁布罗克曼日记曝光：称马斯克不懂 AI

在马斯克起诉OpenAI的庭审中，公司总裁布罗克曼约100页的私人日记被作为核心证据公开。日记显示，2017年马斯克曾发出最后通牒，要求完全控制营利部门或让OpenAI保持非营利。布罗克曼在日记中考虑转向营利性，并思考“如何赚到10亿美元”。庭审中，他拒绝将持有的290亿美元归还非营利部门，并辩称日记仅为思维探索。布罗克曼作证称马斯克不懂AI，且马斯克2018年离开时曾计划在AI安全上“走捷径”；马斯克则表示离开是因OpenAI拒绝与特斯拉合并。

OpenAI行业动态

10:15

IT之家（RSS）

美图公司：2026 年一季度全球付费用户超 1790 万创新高，同比增长 30.2%

美图公司2026年第一季度业绩显示，其全球付费订阅用户数突破1790万，同比增长30.2%，创历史新高。以付费订阅为主的影像与设计产品收入达8.52亿元，同比增长34.3%。公司首次披露AI生产力应用年度经常性收入（ARR）约为5.8亿元，同比大幅增长56.2%，相关付费用户增至234万。此外，用户对AI算力点的消耗金额也呈现快速增长态势。

图像生成行业动态

10:15

IT之家（RSS）

美国电动汽车公司 Rivian 拟自产激光雷达，考虑与中国公司合作

美国电动汽车制造商 Rivian CEO 斯卡林奇表示，公司计划自行生产激光雷达传感器，并考虑通过与中国企业组建合资企业等方式，在美国本土吸收和应用中国先进的激光雷达技术。此举是其自有自动驾驶技术战略的一部分，旨在生产目标售价仅几百美元的传感器。同时，Rivian 已投入数亿美元自研芯片，首款芯片 RAP-1 将于今年推出，后续将推出更先进版本。公司也在与其他汽车制造商探讨合作，以在美国建立生产能力。

行业动态

10:15

IT之家（RSS）

微软游戏 AI 助手遇冷，Xbox 主动收缩战线

微软Xbox新任CEO确认将逐步关闭移动端Gaming Copilot并停止主机端开发。该AI游戏助手功能因在单机游戏中可能缩短游戏时长、削弱探索乐趣，且被指直接抓取现有攻略网站内容而引发争议，遭到玩家和内容创作者批评。由于整体市场反响冷淡及内部支持不足，新任管理层决定收缩战线，但PC端Gaming Copilot的命运暂未明确。

Microsoft产品更新

09:15

IT之家（RSS）

微软 Xbox 高层大换血： 2 位元老将卸任，5 位 AI 系高管空降

微软Xbox部门在新任首席执行官阿萨·夏尔马上任数月后启动重大领导层重组。两位任职数十年的元老Kevin Gammill和Roanne Sones将卸任。同时，夏尔马从其此前领导的CoreAI团队引入了Jared Palmer、Tim Allen等5位高管空降Xbox，分别负责产品、设计、增长、工程及订阅云业务。夏尔马在内部备忘录中指出，此次调整旨在改变当前效率低下、内部消耗大的工作方式，以加快决策和影响力。

Microsoft行业动态

09:15

IT之家（RSS）

对标 OpenClaw，Meta 被曝正开发个性化 AI 智能体

据《金融时报》报道，Meta 正在为其超过30亿用户开发一款高度个性化的AI助手，由新Muse Spark AI模型驱动，旨在对标OpenClaw，帮助用户自动完成网页浏览、邮件管理等日常任务。该助手已进入内部测试，并计划在用户自愿前提下获取健康、财务等敏感信息以提升服务，但面临巨大的用户信任与数据隐私挑战。尽管Meta计划本月裁员10%，CEO扎克伯格仍坚持投入数十亿美元推动AI深度融入产品核心，但投资者对其成本与执行风险日益担忧。

智能体Meta行业动态

09:15

IT之家（RSS）

目标剔除 13 岁以下账户，Meta 推进 AI 双重手段验证年龄

Meta 计划在 Facebook 和 Instagram 部署 AI 年龄检测系统，旨在识别并移除未满 13 岁的用户账户。新系统采用文本分析与视觉扫描双重手段：视觉扫描通过分析用户上传的照片和视频，从身高、骨骼结构等物理线索估算年龄范围；文本分析则抓取用户内容中的生日帖、年级提及等信号。Meta 强调该系统不进行面部或身份识别，仅估算大致年龄段，以在保护未成年人安全与尊重用户隐私之间寻求平衡。

Meta产品更新安全/对齐

09:15

IT之家（RSS）

AI 训练侵犯版权，爱思唯尔、圣智等多家出版商起诉 Meta

爱思唯尔、圣智、阿歇特等多家出版商及作家斯科特·图罗在曼哈顿联邦法院集体起诉Meta，指控其未经许可滥用数百万部受版权保护的书籍、期刊文章（包括教科书、科学文章及小说《第五季》等）来训练AI模型Llama，并索赔未定金额的经济赔偿。Meta回应称，利用版权材料训练AI可构成合理使用，将积极应诉。此前，AI公司Anthropic曾以支付至少15亿美元的方式，就类似作家集体诉讼达成和解。

Meta政策/监管数据/训练

09:15

IT之家（RSS）

Anthropic 承诺 5 年内斥资 2000 亿美元购买谷歌云服务和芯片

据报道，人工智能公司Anthropic已承诺在未来五年内向谷歌云支出2000亿美元，用于购买云服务和AI芯片。这笔巨额承诺占谷歌近期披露的未实现收入的40%以上，消息推动谷歌母公司Alphabet股价盘后上涨约2%。Anthropic表示其AI模型Claude在多种硬件上运行。此前，谷歌已决定向Anthropic投资100亿美元，并可能追加300亿美元。此外，Anthropic也与亚马逊达成长期协议，未来十年将采购超1000亿美元AWS算力资源，并可能获得亚马逊至多250亿美元投资。

AnthropicGoogle行业动态部署/工程

09:01

Hacker News 热门（buzzing.cc 中文翻译）

出版商称，扎克伯格"亲自批准"了Meta的侵权行为

多家出版商指控Meta及其CEO扎克伯格存在大规模版权侵权。诉状称，扎克伯格“亲自批准”使用受版权保护的书籍、新闻文章等作品来训练其Llama系列AI模型，且公司内部明知此举存在法律风险。诉讼寻求就Meta未经许可复制大量作品的行为获得赔偿，具体涉及的作品数量未公开。此案凸显了AI训练数据版权争议的升级。

Meta数据/训练行业动态

08:27

Simon Willison 博客

datasette-referrer-policy 0.1 发布

Datasette 新插件 datasette-referrer-policy 0.1 发布，旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致：一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求，该问题已修复；二是 OpenStreetMap 会屏蔽使用了 `Referrer-Policy: no-referrer` 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值，从而确保地图正常加载，同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。

开源/仓库部署/工程

08:15

IT之家（RSS）

IT早报 0506：余额宝七日年化收益率首次跌破 1%；小米"昆仑"增程 SUV 谍照曝光；抖音辟谣红果短剧收费不实；鸿蒙智行回应享界 S9 零重力座椅夹头…

天弘余额宝七日年化收益率首次跌破1%，引发市场关注。科技新品方面，小米增程全尺寸SUV“昆仑N3”谍照曝光，华为Pura X Max横阔折手机首周销量表现强劲。企业动态中，抖音辟谣红果短剧将全面收费，鸿蒙智行就享界S9座椅安全传闻作出说明。此外，美国政府将与微软、谷歌等公司合作提前审查前沿AI模型，NASA测试大功率新型离子发动机。数据显示，2026年第一季度全球手机销量前三名均由iPhone 17系列包揽。

OpenAIxAI安全/对齐政策/监管

08:15

IT之家（RSS）

精选75

OpenAI ChatGPT 默认 AI 模型升至 GPT-5.5 Instant：幻觉最高减少 52.5%、回复更简洁

OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant，重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域，幻觉声明较前代减少52.5%；在用户标记的事实错误测试中，不准确声明降低37.3%。回复内容更简洁，减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新，付费用户可继续使用GPT-5.3 Instant三个月。

OpenAI推理模型发布

关联讨论 14 条

推荐理由：GPT-5.5 Instant 不是新模型发布，而是实测提升：少说废话、少犯错。52.5% 的幻觉降幅对高风险领域用户是个实打实的增益，所有 ChatGPT 用户的对话体验今天起都会简洁一档。

08:01

Hacker News 热门（buzzing.cc 中文翻译）

GLM-5V-Turbo：迈向多模态智能体的原生基础模型

GLM-5V-Turbo作为一款原生多模态基础模型发布，旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异，在MMBench基准测试上达到90.1分，在MathVista测试中取得78.5%的准确率，并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力，为构建更高效的端到端多模态智能体提供了新的模型基础。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

KernelBench-X：评估LLM生成的GPU内核的综合基准测试

KernelBench-X基准测试系统评估LLM生成的Triton GPU内核，涵盖15个类别共176项任务。研究比较五种代表性方法，发现：任务结构对正确性的影响远超方法设计，类别因素解释的方差是方法的近三倍；迭代优化将编译成功率从52.3%提升至68.8%，但平均加速比从1.58倍降至1.44倍；46.6%的正确内核性能低于PyTorch基线，量化任务全部失败。未来需关注全局协调、数值精度建模与硬件效率整合。

数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RemoteZero：无需人工标注的地理空间推理

地理空间推理模型通常依赖人工标注的边界框坐标进行监督，这限制了其在海量无标注遥感数据上的自我进化。为此，研究团队提出RemoteZero框架，它利用多模态大语言模型在判别区域语义方面的优势，以内在语义验证取代几何坐标监督，从而实现了无需边界框标注的训练。该框架支持迭代式自我进化，模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明，RemoteZero在定位任务上取得了与强监督方法相竞争的性能，展现了自验证训练在地理空间推理领域的潜力。

arXiv多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

RaguTeam在SemEval-2026任务8中：基于评判者协调的LLM集成系统实现忠实多轮响应生成

RaguTeam团队在SemEval-2026任务8的B任务（基于参考段落生成）中获胜。其方法采用一个包含七个大型语言模型的异构集成系统，结合两种提示变体，并由GPT-4o-mini作为评判者为每个实例选择最佳响应。该系统在26支队伍中排名第一，以0.7827的条件调和平均值显著优于最强基线模型。消融实验证明，模型家族、规模和提示策略的多样性对集成效果至关重要。团队还发布了领域适应的7B模型Meno-Lite-0.1，在成本与性能间取得了良好平衡，并对任务数据集的标注局限性及改进方向进行了分析。相关代码已开源。

开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ReflectDrive-2：基于强化学习对齐的自编辑离散扩散驾驶规划器

ReflectDrive-2是一种用于自动驾驶的掩码离散扩散规划器，它将规划表示为离散轨迹令牌并通过并行掩码解码生成。其核心是AutoEdit自编辑功能，可在同一模型内直接重写选定令牌，无需额外优化网络。模型采用两阶段训练：先通过扰动专家轨迹进行监督学习，再利用强化学习微调“决策-起草-反思”全流程，将最终驾驶奖励分配给编辑后的轨迹。强化学习使编辑效果的PDMS指标增益从0.3提升至1.9。在NAVSIM测试中，该模型仅使用摄像头输入即达到91.0 PDMS，在最优6次采样下可达94.8 PDMS，平均延迟为31.8毫秒。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TabEmbed：面向表格理解的基准测试与通用嵌入学习

基础模型在自然语言处理中建立了统一表示，但表格数据领域仍待探索。现有方法存在根本限制：基于LLM的方法缺乏检索兼容的向量输出，而文本嵌入模型常无法捕捉表格结构和数值语义。为此，我们首先引入表格嵌入基准TabBench，以评估嵌入模型的表格理解能力；然后提出首个通用嵌入模型TabEmbed，将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题，利用大规模对比学习和正样本感知的困难负样本挖掘技术，捕捉细粒度结构与数值语义。实验表明，TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型，为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。

开源生态搜索数据/训练论文/研究