AIHOT

4月30日

14:35

IT之家（RSS）

64

谷歌：Gemini 应用可直接生成并下载 PDF、Word、Excel 等文件

谷歌宣布其Gemini应用现已支持直接生成并下载多种格式文件。用户仅需输入一条提示词，即可在对话中创建PDF、Microsoft Word、Excel、谷歌Workspace文档等，无需离开应用即可完成从构思到成文的流程。该功能已面向全球所有Gemini用户开放，生成的文件可直接下载至设备或导出至谷歌云端硬盘。支持的格式包括谷歌文档、表格、幻灯片、PDF、Word(docx)、Excel(xlsx)、CSV、LaTeX、Markdown、纯文本(TXT)和富文本格式(RTF)。

Google产品更新

14:35

IT之家（RSS）

61

谷歌确认将开始向部分客户交付 TPU 硬件设备

谷歌母公司Alphabet在财报会议上确认，将开始向部分精选客户交付TPU硬件设备，供其部署在自有数据中心，这为TPU系列AI硬件开辟了云端算力之外的新变现模式。谷歌近期发布了第八代TPU新品TPU 8t和TPU 8i，性能较上代大幅提升。相关协议预计在今年晚些时候带来少量收入，大部分收入将在2027年实现。此外，Google Cloud在2026年第一季度营收首次突破200亿美元，同比增长63%。

Google推理行业动态

关联讨论 1 条

14:35

IT之家（RSS）

56

微软 CEO 纳德拉：与 OpenAI 达成新协议是双赢

微软CEO纳德拉表示，与OpenAI修订后的新协议构成了双赢结构。根据协议，微软保留了获取OpenAI知识产权（包括模型和智能体产品）的权限，且无需再为此支付费用。OpenAI仍将微软Azure云平台作为首要合作伙伴，其产品优先在Azure上线，但现已可自由通过任意云服务商向客户提供全部服务。与此同时，亚马逊云科技AWS宣布将OpenAI最新大模型接入其Amazon Bedrock平台。

MicrosoftOpenAI行业动态

14:35

IT之家（RSS）

49

英伟达高管称现阶段 AI 服务运营成本高于人力成本

英伟达应用深度学习副总裁与Uber首席技术官指出，当前AI服务（如代码助手、自动化智能体）的运营成本已超过人力成本，挑战了“AI必然降本增效”的普遍预期。AI服务定价包括每月20美元订阅费或功能完备版200美元，但基于Token计费的编程助手等工具导致实际开支远超预算。尽管如此，许多企业CEO将高昂成本视为积极信号，认为这表明员工正深入使用AI工具推动自动化与创新，并将其重新定义为战略投资。

大佬观点部署/工程

13:35

IT之家（RSS）

23

vivo X300 Ultra / X300s 手机影像创作升级，新增与上海迪士尼度假区的联名样张水印等

vivo 为 X300 Ultra 和 X300s 手机推出影像系统升级。X300 Ultra 在 19.10 及以上版本中获得了多项功能提升，包括支持追光、浓郁等风格的拍后可逆编辑；新增与上海迪士尼度假区的联名样张水印及旅拍风格水印；人像模式加入希区柯克变焦实况；通过云端大模型增强长焦画质；人像录像可手动调节曝光；录像支持地平线防抖；Log视频支持外接硬盘录制。X300s 在 10.5 及以上版本中，主要获得了拍后可逆编辑和全新的迪士尼联名、旅拍水印两项升级。

其他

12:35

IT之家（RSS）

38

熊猫机器人抄袭魔法原子？宇树科技 CMO 王其鑫：我们推出的更早，网上有视频作证

宇树科技全国首家直营旗舰店于北京王府井开业，店内展示多款机器人产品。针对熊猫机器人创意抄袭魔法原子的质疑，宇树科技CMO王其鑫回应称，公司早在去年11月、12月就已发布熊猫外观机器狗视频，早于魔法原子在今年2月春晚的首次亮相。他解释该产品是在四足机器人基础上加装熊猫外观套件实现的。魔法原子曾作为2026年央视春晚战略合作伙伴，派出上百台熊猫造型机器人登台。

具身智能行业动态

12:35

IT之家（RSS）

58

纳德拉：微软 M365 Copilot 付费企业席位超 2000 万个，周活跃度持平 Outlook

微软宣布其Microsoft 365 Copilot付费企业席位已突破2000万个，用户周活跃度与Outlook持平，季度查询量环比增长近20%。市场表现强劲，购买超5万个席位的企业数量增长四倍，拜耳、强生等公司席位超9万个，与埃森哲达成的74万席位订单成为迄今最大单。技术架构上，Copilot不再仅依赖OpenAI，默认支持包括Anthropic Claude在内的多模型访问，通过智能路由提升响应质量。

Microsoft现象/趋势行业动态

12:35

IT之家（RSS）

40

2.69 万元起，宇树双臂人形机器人发布

宇树科技发布新款双臂人形机器人，起售价2.69万元。该机器人主打上半身双臂操作，配备视觉双目算力模组，支持15至31个自由度，手臂自由度可选5x2或7x2。机身和头部各搭载8核CPU，头部模组算力达10TOPS。下半身可选固定底座或移动底盘，末端执行器可更换为双指、三指或五指灵巧手。产品提供四个不同配置版本。

产品更新具身智能

12:35

IT之家（RSS）

61

小红书组织调整：柯南（薯名）出任总裁，成立 AI 一级部门 Dots 和企业智能部

小红书宣布新一轮组织升级，成立 AI 一级部门 Dots 和企业智能部，以加大 AI 投入。同时，任命柯南（薯名，本名丁玲）为总裁，全面整合社区、电商、商业化及技术体系，向 CEO 星矢（毛文超）汇报。董事会主席木兰（瞿芳）继续任职。

现象/趋势行业动态

11:34

IT之家（RSS）

37

Linux 内核潜伏 9 年漏洞披露：732 字节脚本攻破 Ubuntu 等发行版，提权至 root 最高权限

Linux内核曝出高危漏洞“Copy Fail”（CVE-2026-31431）。该漏洞源于2017年引入的代码优化，结合AF_ALG加密接口与splice()系统调用，允许攻击者通过一个仅732字节的Python脚本，稳定篡改系统可信二进制文件，从而在所有主流Linux发行版上轻松提权至root。其影响范围覆盖2017年至补丁发布前构建的内核版本，并能导致容器逃逸，严重威胁云原生环境。目前官方已发布修复补丁。

安全/对齐部署/工程

11:34

IT之家（RSS）

48

打破纯文本限制，微软 OneNote 内置 AI 现支持理解表格 / 图像等

微软于4月29日宣布，为拥有Microsoft 365 Copilot许可的用户在Windows、macOS及iOS平台的OneNote应用推出AI功能更新。新版内置Copilot AI突破纯文本限制，新增对表格、图像及标签的理解与分析能力。例如在规划旅行时，AI可综合分析行程表格、检查清单和景点照片，智能排查行程漏洞并提供优化建议。该更新通过服务器端推送自动部署，用户无需手动更新，只需确保设备版本符合要求即可。

Microsoft产品更新多模态

11:34

IT之家（RSS）

46

钉钉陈航：AI 招聘看 AIQ，学历经历年龄不再重要

钉钉CEO陈航提出，AIQ（AI商数）将取代KPI与OKR成为企业新核心指标，其包含提示素养、算法共情和判断锐度。企业提升AIQ需经过认知跃迁、信息基建（如会议AI听记、业务接入AI）和组织重构（如试点团队取消日报，AI自动汇总）三步。未来企业组织将更扁平，员工可成长为AI超级个体，招聘时学历、经历和年龄不再重要，转而看重AIQ、真诚可靠和心态开放度。

大佬观点

10:43

智谱：研究（网页内嵌数据）

精选55

超大规模编码代理推理实践

在超大规模编码代理推理中，乱码和生僻字异常伴随低spec_accept_length，复读异常伴随高spec_accept_rate，均因KV Cache状态偏差导致。通过修复KV Cache竞态和加载时序缺失，引入显式同步约束及分层存储优化，提升了推理稳定性和效率。

编码论文/研究部署/工程

关联讨论 1 条

推荐理由：智谱公开了超大规模Coding Agent推理的工程细节，KV Cache竞态的修复和分层存储方案可以直接用，做Agent infra的值得收藏。

10:42

HuggingFace Daily Papers（社区热门论文）

59

ClawGym：一个用于构建高效Claw智能体的可扩展框架

ClawGym是一个可扩展框架，旨在解决Claw式环境中缺乏系统化开发框架的瓶颈，支持个人智能体开发的全生命周期。其核心包括：ClawGym-SynData数据集，通过角色驱动意图与技能基础操作合成1.35万个筛选任务，配备模拟工作空间和混合验证机制；ClawGym-Agents模型系列，基于黑盒轨迹监督微调训练，并探索在并行化任务沙箱中的轻量级强化学习流程；以及ClawGym-Bench评估基准，包含200个经过自动过滤与人工-LLM双重校准的测试实例。相关资源即将在GitHub开源发布。

智能体开源/仓库数据/训练论文/研究

10:42

HuggingFace Daily Papers（社区热门论文）

54

基于视频先验与异步去噪的统一4D世界动作建模

研究团队提出X-WAM，一个统一4D世界模型，首次在单一框架内整合了实时机器人动作执行与高保真4D世界合成。该模型通过预测多视角RGB-D视频来想象未来世界，并采用轻量级结构适配器复制预训练扩散Transformer的末端模块，形成专用深度预测分支以高效获取空间信息。其核心创新异步噪声采样技术，在推理时采用异步去噪调度，能以更少步数快速解码动作实现实时执行，同时保留完整步数生成高保真视频。模型在超过5800小时机器人数据上预训练，在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率，其4D重建与生成质量在视觉和几何指标上均超越现有方法。

具身智能视频论文/研究

10:42

HuggingFace Daily Papers（社区热门论文）

56

通过系统集成推测解码加速强化学习后训练中的生成过程

前沿语言模型的强化学习后训练常受限于自回归生成速度。本研究将推测解码作为一种无损加速方法集成到RL生成过程中，在保持目标模型输出分布不变的前提下提升效率。该方案在NeMo-RL框架中结合vLLM后端实现，支持同步与异步流水线，允许在RL生成阶段进行推测。实验表明，在8B规模的同步RL推理任务中，推测解码使生成吞吐量提升1.8倍。通过高保真模拟器预测，在235B规模下结合异步RL可实现最高2.5倍的端到端训练加速。

arXiv推理论文/研究部署/工程

10:34

IT之家（RSS）

46

三星 Galaxy Glasses 智能眼镜曝光：骁龙 AR1 芯片、1200 万像素相机、重约 50 克

三星智能眼镜 Galaxy Glasses 产品信息近日曝光。该眼镜外观类似太阳镜，重量约50克，搭载高通骁龙AR1处理器和1200万像素索尼IMX681传感器，支持Wi-Fi与蓝牙5.3，内置155mAh电池。设备一侧设有摄像头，另一侧有LED指示灯，并集成麦克风、扬声器及触控区，支持快速配对与电量查询。据悉，它未配备内置显示屏，主打音频与AI体验，预计运行Android XR系统并集成Gemini AI助手，可通过语音唤醒。

产品更新端侧语音

10:34

IT之家（RSS）

31

ASUSTOR 预热 Flashstor Gen3 全闪 NAS，用上 8640U

ASUSTOR宣布将推出新一代全闪存NAS产品Flashstor Gen3系列，包括Flashstor 6 Gen3和Flashstor 12 Pro Gen3两款型号。新品均搭载AMD锐龙5 PRO 8640U处理器，提供16 TOPS的NPU AI算力，支持本地边缘计算和智能影像识别。该系列分别提供6个和12个M.2 NVMe SSD盘位，最高支持PCIe Gen4，并配备USB4、HDMI等接口。其支持双USB网络直连，传输效率可超越10GbE。同期推出的还有12盘位存储扩充设备Xpanstor 12R Gen2，配备550W白金效率冗余电源和热插拔风扇，可为特定NAS系列提供额外存储空间。

产品更新端侧

09:34

Simon Willison 博客

47

llm 0.32a0 发布

Simon Willison 发布了其命令行工具 LLM 的 0.32a0 版本。此次更新为 alpha 预发布版本，主要变更与详细说明可通过 GitHub 的发布页面及作者博客上的注解式发布说明获取。该版本标志着 LLM 工具在功能或兼容性上的进一步迭代，通常涉及对大型语言模型（如 GPT、Claude、LLaMA 等）进行访问或操作的改进。

产品更新开源生态部署/工程

09:34

Simon Willison 博客

30

llm 0.32a1 发布

llm 发布了 0.32a1 版本，修复了 0.32a0 版本中存在的一个关键缺陷。该缺陷会导致从 SQLite 数据库重新加载时，工具调用对话无法正确恢复。此次更新解决了 GitHub 上的 issue #1426。

GitHub产品更新

09:34

Simon Willison 博客

57

Zig项目严格反AI贡献政策的核心理由

Zig项目实施了最严格的反LLM政策，全面禁止在问题、拉取请求和评论中使用AI生成内容。尽管其生态中的重要项目Bun（已被Anthropic收购）重度依赖AI辅助，并通过对Zig的分支实现了4倍的编译性能提升，但由于该禁令，这些改进不会向上游合并。Zig软件基金会社区副总裁解释，此政策的核心逻辑是“贡献者扑克”——项目更重视培养可信赖的长期贡献者，而非单次代码贡献。审查PR被视为对“人”的投资，而LLM生成的“完美”PR无法帮助社区积累这样的贡献者，因此被禁止。

Anthropic大佬观点开源生态编码

09:34

IT之家（RSS）

54

亚马逊2026Q1净利润303亿美元同比增77%，AWS云业务增速创3年新高

亚马逊2026财年第一季度业绩强劲，净销售额1815亿美元，同比增长17%；净利润达303亿美元，同比大涨77%。核心云业务AWS营收375.9亿美元，同比增长28%，创逾3年来最快增速。公司正大力投资人工智能，年度资本支出预算高达2000亿美元，导致过去12个月自由现金流骤降95%至12亿美元。同时，亚马逊宣布以约115.7亿美元收购Globalstar，以获取全球频谱资源并深化与苹果的合作。

行业动态部署/工程

09:34

IT之家（RSS）

47

高通 FY2026Q2 营收小幅下滑 3%，预告年内交付首款超大规模 ASIC

高通2026财年第二季度营收同比下滑3%，净利润大幅下滑。其中手机业务收入下降13%，但汽车业务增长38%。公司预计中国手机业务收入将在下一季度触底后回升。对于第三季度，高通给出了92亿至100亿美元的营收指引。同时，高通宣布与某领先云服务商合作的定制ASIC芯片项目进展顺利，首批产品预计在今年晚些时候出货，标志着其正式进军数据中心领域。

行业动态

09:34

IT之家（RSS）

64

万亿级综合旗舰模型：蚂蚁集团百灵大模型开源 Ling-2.6-1T

蚂蚁集团正式开源百灵大模型万亿级综合旗舰模型 Ling-2.6-1T。该模型不单纯追求参数规模，而是通过MLA与Linear Attention混合架构等创新，系统性优化智效比与复杂任务执行能力。其核心是在更低Token开销下实现强综合智能，减少对冗长思考链的依赖，并在AIME26、SWE-bench Verified等多个执行类基准测试中达到开源SOTA水平。模型具备完整的工程落地能力，并与主流Agent框架兼容，旨在成为可部署于真实业务系统的底座。为方便体验，其在OpenRouter平台的免费API调用服务将延期一周。

开源生态推理模型发布编码

关联讨论 1 条

09:12

Hacker News 热门（buzzing.cc 中文翻译）

63

Ramp的Sheets AI功能被曝泄露敏感财务数据

网络安全公司PromptArmor披露，企业支出管理平台Ramp的“Sheets AI”功能存在严重数据泄露风险。当用户使用该AI总结电子表格时，系统会向OpenAI的API发送包含交易金额、供应商名称、员工费用等敏感财务信息的完整表格数据，且此过程未充分告知用户。这些数据可能被用于模型训练，涉及Ramp庞大的用户群及其处理的数百亿美元企业支出。目前，Ramp已暂时禁用该功能并展开调查。

安全/对齐数据/训练

08:34

IT之家（RSS）

60

苹果发布 AI 框架 LaDiR：突破单一思维，并行探索多条推理路径

苹果公司与加州大学圣迭戈分校团队联合发布名为LaDiR的AI推理框架。该框架并非新模型，而是一个可叠加于现有大语言模型之上的通用架构，其核心创新在于结合扩散模型与自回归模型。在推理阶段，LaDiR利用扩散过程并行探索多条独立路径，并通过多样性鼓励机制防止思维过早收敛，最后以自回归方式输出最终答案。测试显示，该框架在LLaMA 3.1 8B等模型上，于数学推理、代码生成及谜题规划任务中，其准确率和可靠性均优于现有通用方法。

Meta推理论文/研究

08:34

IT之家（RSS）

36

消息称苹果 iOS 27 版相机新增 Siri 模式，AI 记录食品标签、名片、活动门票等

苹果计划在 iOS 27 版相机应用中新增 Siri 模式，整合 Visual Intelligence 功能。该模式将与现有拍照模式并列显示，使智能视觉能力更易访问。功能包括扫描食品营养标签记录卡路里数据并同步至健康应用，识别名片信息添加联系人，以及扫描活动门票和会员卡生成数字版本存入钱包。此前需长按按钮激活的隐蔽操作被直接集成，提升用户使用便捷性。

产品更新多模态

08:34

IT之家（RSS）

63

消息称 Anthropic 权衡新融资，有望超车 OpenAI 成全球最有价值 AI 初创企业

人工智能初创公司Anthropic正考虑进行新一轮融资，其估值有望达到9000亿美元。若融资成功，该公司将超越目前估值8520亿美元的OpenAI，成为全球最具价值的AI初创企业。Anthropic当前正式估值为3500亿美元，新一轮融资将使该数值翻倍。此前，该公司已获得谷歌和亚马逊基于3500亿美元估值的投资，金额分别为100亿美元和50亿美元，两家科技巨头还承诺后续追加投资。

AnthropicOpenAI行业动态

08:34

IT之家（RSS）

56

168 小时试运行试验圆满完成：我国首个民营资本参股项目、长三角首台"华龙一号"核电机组投产发电

中广核浙江三澳核电项目1号机组已完成168小时试运行，正式投产发电，成为我国首个民营资本参股项目、长三角地区首台“华龙一号”核电机组。该机组预计年发电量超90亿千瓦时，可满足超100万居民的年度用电需求。项目规划建设6台“华龙一号”机组，目前已核准4台；全部建成后，年发电能力预计超540亿千瓦时，每年可减少标煤消耗超1635万吨、减排二氧化碳近5000万吨，相当于新增植树造林面积超12万公顷。

行业动态部署/工程

08:34

IT之家（RSS）

37

谷歌相册推出衣橱规划功能：AI 提取服装图像整理到数字衣橱，支持虚拟试穿

<谷歌相册推出AI衣橱规划功能，通过人工智能自动提取用户照片中的服装图像，整理到数字衣橱。用户可按类别筛选服装，混搭单品设计穿搭，并支持虚拟试穿预览；还可保存穿搭到数字情绪板，适用于不同场合。该功能预计今年夏季首发于安卓平台，随后登陆iOS设备。>

Google产品更新图像生成

08:34

IT之家（RSS）

57

消息称 OpenAI 调整"星际之门"计划：更大程度依赖算力租赁

OpenAI正调整其“星际之门”AI基础设施建设计划，从原先侧重自建转向更大程度依赖算力租赁。公司将通过一系列大型双边交易来满足算力需求，具体将以Nscale→微软→OpenAI的间接方式，从原“星际之门·挪威”数据中心站点获取资源。微软同时将接手原计划作为首个站点扩建项目的美国得克萨斯州阿比林园区二期，以支持受此调整影响的企业。这一转变意味着OpenAI缩减了自建算力设施的规模。

OpenAI行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

57

EDU-CIRCUIT-HW：在真实大学STEM课程学生手写解答上评估多模态大语言模型

研究团队发布了EDU-CIRCUIT-HW数据集，包含1300多份大学STEM课程的真实学生手写解答。该研究利用专家核对的转录文本与评分报告，同步评估了多种多模态大语言模型的上游识别准确性与下游自动评分性能。评估发现，模型识别的手写内容中存在大量潜在错误，表明其在高风险教育场景中用于自动评分等理解型任务的可靠性不足。一项案例研究表明，通过识别错误模式进行预先检测与纠正，仅需极少人工干预（例如将3.3%的作业交由人工评分），即可有效提升AI评分系统的鲁棒性。代码与数据集已开源。

arXivGitHub多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

MiniCPM-o 4.5：迈向实时全双工全模态交互

当前多模态大语言模型在交互范式上存在瓶颈，感知与响应分离且缺乏主动性。MiniCPM-o 4.5 通过 Omni-Flow 统一流式框架，将多模态输入输出对齐到共享时间轴，实现实时全双工全模态交互，支持同时感知与响应，并能基于对动态场景的连续理解主动发出提醒或评论。该模型参数量为 90 亿，在视觉语言能力上接近 Gemini 2.5 Flash，在全模态理解上超越 Qwen3-Omni-30B-A3B，且语音生成更优、计算效率显著更高。得益于高效的架构设计和推理优化，模型可在内存小于 12GB 的边缘设备上实现实时全双工全模态交互。

多模态模型发布端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

HERMES++：迈向3D场景理解与生成的统一驾驶世界模型

现有驾驶世界模型多专注于未来场景生成，而大语言模型虽具推理能力却无法预测几何演变，导致语义理解与物理模拟之间存在鸿沟。为此，我们提出HERMES++，一个将3D场景理解与未来几何预测集成于单一框架的统一模型。其核心设计包括：利用BEV表征整合多视角空间信息；引入LLM增强的世界查询以促进知识迁移；设计“当前-未来链接”来弥合时序差距，使几何演变基于语义上下文；以及采用联合几何优化策略，整合显式约束与隐式正则化以确保结构完整性。在多个基准测试中，HERMES++在未来的点云预测和3D场景理解任务上均超越专用方法，展现出卓越性能。模型与代码已开源。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

Skills-Coach：基于无训练GRPO的自进化技能优化框架

Skills-Coach是一种自动化框架，旨在提升基于大语言模型的智能体的技能自进化能力。它通过四个核心模块解决技能生态系统碎片化：多样化任务生成模块创建测试套件；轻量化优化模块改进技能提示和代码；对比执行模块评估原始与优化技能；可追溯评估模块严格评判性能。框架提供虚拟和真实执行模式。研究使用包含48项技能的Skill-X基准数据集验证，实验结果表明Skills-Coach在广泛技能类别上实现显著性能提升，有助于开发更强大、适应性更强的LLM智能体。

智能体arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

WindowsWorld：一个以流程为中心的专业跨应用环境自主GUI代理基准

WindowsWorld是一个跨应用工作流基准，旨在系统评估GUI代理在模拟真实专业活动的复杂多步骤任务中的性能。该基准采用由16种职业引导的多智能体框架，生成包含四个难度级别及中间检查的任务，经人工审核后在模拟环境中执行。基准包含181个任务，平均每个任务有5.0个子目标，覆盖17种常用桌面应用，其中78%为跨应用任务。实验结果显示，当前领先的大模型与代理在跨应用任务上表现不佳（成功率低于21%），远低于简单单应用任务；在需要跨三个及以上应用进行条件判断与推理的任务中大多失败，且执行效率低下。相关代码、基准数据与评估资源已开源。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

63

通过Haiku模型连接空间生物学与临床组织学

Haiku是一个基于多重免疫荧光数据训练的三模态对比学习模型，整合了空间蛋白质组、H&E组织病理图像和临床数据。该模型在来自1,606名患者、涵盖11种器官类型的3,218个组织切片上训练，实现了三模态跨模态检索，在下游分类、生存预测等任务中超越单模态基线。其创新性在于支持仅通过临床文本描述进行零样本生物标志物推断，并引入反事实预测框架，能在固定组织形态下通过修改临床元数据揭示与癌症进展相关的微环境分子变化，为连接分子测量与临床背景提供了系统分析工具。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

评估胰腺导管腺癌血管侵犯：PDACVI基准测试

研究团队发布了CURVAS-PDACVI数据集与挑战赛，这是一个针对胰腺导管腺癌术前血管侵犯评估的开放基准。数据集包含每例扫描的五位专家独立标注，支持不确定性感知AI模型的开发。提出的评估框架不仅衡量空间重叠度，还纳入概率校准与侵犯判定。对六种前沿方法的评估表明，全局体积精度高的模型在关键的肿瘤-血管界面未必可靠；而专门建模标注者分歧的方法能生成更校准的概率图，在专家共识低的复杂案例中更具鲁棒性。该基准揭示了体积精度作为手术适用性代理指标的局限性，推动了面向术前决策的不确定性感知模型的发展。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

重复优于多样：面向高效德语建模的高质量数据过滤策略

针对德语等高资源非英语语言，本研究构建分层过滤器处理5亿份网络文档，对比了单次训练大规模低过滤数据与多轮重复训练高质量核心数据的效果。实验表明，重复训练高质量数据在多种模型规模和训练量级下均稳定优于追求多样性的单次训练，即使重复7轮后性能差距依然显著。这证明通过质量过滤实现语义集中，比单纯扩大数据量更能高效推进语言建模。基于此发布的德语模型Boldt，在训练量仅为同类模型1/10至1/360的情况下取得了领先性能，相关清洗后的评估基准已公开。

arXiv开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

MASCing：通过激活引导掩码配置专家混合模型行为

MASCing框架首次实现无需重新训练的专家混合模型安全行为灵活配置。该框架使用LSTM代理模型捕捉路由依赖关系，通过优化引导矩阵识别行为相关专家回路，并在推理时对路由门应用引导掩码以覆盖专家选择，从而针对性增强或抑制特定安全行为。在七款开源MoE模型测试中，该框架以可忽略开销显著提升性能：多轮越狱防御平均成功率从52.5%提升至83.9%，成人内容生成平均成功率从52.6%提升至82.0%，最高增益分别达89.2%和93.0%。

安全/对齐推理论文/研究