AIHOT

4月29日

14:33

IT之家（RSS）

OpenAI与微软调整独家合作协议后，迅速与亚马逊AWS达成合作。AWS宣布将OpenAI最新大模型（如GPT-5.5）接入其Amazon Bedrock平台，并提供Codex代码Agent及由OpenAI赋能的托管Agent（均为有限预览版）。企业可通过现有Bedrock接口直接调用这些模型，无需额外部署基础设施或适配新安全体系。服务用量可抵扣企业AWS合约额度，并支持命令行工具、桌面客户端及VS Code插件。

OpenAI行业动态部署/工程

关联讨论 6 条

13:33

IT之家（RSS）

腾讯张军：腾讯文档正式"塞进"WorkBuddy，变成 AI 工具一个真正的原子组件

腾讯公关总监张军宣布，腾讯文档已正式集成至全场景AI智能体WorkBuddy中，成为其一个真正的原子组件。此次整合后，WorkBuddy支持直接连接腾讯文档，用户修改文档后可即时保存至云端。同时实现了小程序与电脑端的能力体验同步，用户可通过手机指挥AI处理云端文档，提升了办公场景下的易用性和效率。

智能体产品更新

13:33

IT之家（RSS）

Adobe Photoshop 引入 AI 3D 旋转对象功能，光影可自动匹配

Adobe于4月29日更新了Photoshop和Lightroom。Photoshop引入了全新的AI“旋转对象”工具，用户可在3D空间中实时旋转、倾斜和翻转素材，点击“协调”按钮可自动调整光照和阴影以匹配背景。同时，Photoshop还推出了“图层清理”工具，能智能清理、组织并自动重命名图层，移除空图层。Lightroom的搜索功能现支持自然语言描述查找照片，新增多款胶片风格预设，且辅助筛选速度更快，交互式滑块性能提升最高达5倍。

产品更新图像生成多模态

13:33

IT之家（RSS）

2025 年我国用于人工智能训练和推理的数据总量达 199.48EB，同比增长 42.86%

国家数据局数据显示，2025年我国用于人工智能训练和推理的数据总量达199.48EB，同比增长42.86%。其中，推理数据量首次超过训练数据量，达到101.34EB。同年，由系统软件和人工智能产生的数据量达26.92ZB，首次超越传统占主体的物联感知数据量。测算显示，未来推理算力需求与训练算力需求之比可能达到3:1或更高。此外，全国日均词元调用量在2025年末已增至100万亿，全年累计调用量约21100万亿。

推理数据/训练行业动态

13:33

IT之家（RSS）

微软酝酿 Win11 新版时钟应用：专注模式支持"反思"，任务集成 AI 建议

微软正测试Windows 11新版时钟应用，重点升级“专注”功能并集成任务管理与AI辅助。新界面采用圆角设计，任务面板占据半屏，支持排序并深度联动Microsoft To Do。专注模式可最小化运行，允许自定义时长与休息间隔，新增“反思”环节供用户记录专注状态。AI能为任务步骤提供智能建议，可能依托本地NPU运行。当前测试版尚不完善，基础模块如闹钟暂缺，且运行时内存占用接近旧版两倍。

产品更新

13:33

IT之家（RSS）

华硕无畏 14 酷睿版 2026 轻薄本上架：搭载英特尔酷睿 Ultra 5 325，5999 元起

华硕无畏 14 酷睿版 2026 轻薄本现已上架京东，搭载英特尔酷睿 Ultra 5 325 处理器。提供 16GB+1TB 和 32GB+1TB 两种配置，售价分别为 5999 元和 6999 元。该笔记本采用全金属机身，厚 15.9mm，重 1.25kg，性能释放达 40W。配备一块 2.5K 分辨率、144Hz 可变刷新率、400nits 亮度的护眼屏，并内置 70Wh 电池，官方标称续航可达 22.9 小时。

其他端侧

12:33

IT之家（RSS）

没用一颗 GPU 加速卡：纯国产 CPU 架构 E 级超算"灵晟"在深圳点亮，持续性能超 2EFlops 剑指世界第一

国产E级超算“灵晟”在深圳全面点亮并完成测试，正式开放应用。该系统由卢宇彤担任总设计师，完全依托国产通用CPU实现软硬件全栈自主可控，未使用任何GPU加速卡。其持续双精度浮点运算性能超过2EFlops，理论上超越当前全球公开超算榜首。系统采用分阶段建设与大规模液冷技术，存储容量达650PB，并已在遥感、气象、药物研发等九大领域取得重要应用成果。

行业动态部署/工程

12:33

IT之家（RSS）

华为乾崑 | 启境汽车详解新一代面向自动驾驶全链路冗余架构，支持备用系统即时生效

华为乾崑与启境汽车发布了新一代面向自动驾驶的全链路冗余架构。该架构具备硬件八大冗余系统，包括供电、转向、制动、通信、定位、算力域控、感知及HMI交互，支持备用系统在主系统失效时即时无感切换，以保障安全。例如采用双路独立供电、双SOC芯片算力协同，并通过触觉、视觉、听觉多模态交互提示接管。搭载此架构的启境GT7智能猎装车计划于6月上市。

具身智能端侧行业动态

11:35

Claude Code：GitHub Releases（RSS）

v2.1.123

本次更新修复了一个关键的OAuth身份验证故障。当环境变量`CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS`被设置为1时，系统此前会陷入401错误的重试循环，导致认证失败。此问题现已得到解决，确保了在该特定配置下身份验证流程的正常运行。

Anthropic产品更新编码

11:33

IT之家（RSS）

Anthropic Claude Code 大幅涨价：从预估每日 6 美元翻倍至 13 美元

Anthropic 近期将其AI编程助手Claude Code的token成本悄然翻倍。根据官网最新说明，每个开发者每个活跃日的平均成本从约6美元升至约13美元，90%用户每日成本上限也从12美元提高到30美元。每个开发者月成本现约为150-250美元。此次未发公告的涨价反映了AI使用成本全面上升的行业趋势。公司增长负责人承认，现有订阅计划已无法适应当前用户的高使用强度。

Anthropic产品更新编码

11:33

IT之家（RSS）

我国 2025 全年词元累计调用量约 21100 万亿

《全国数据资源调查报告（2025 年）》在第九届数字中国建设峰会发布，显示数据资源正强力赋能人工智能创新。2025年，全国日均词元调用量从年初超万亿增长到年末100万亿，呈现指数级跃升；全年累计调用量达到约21100万亿。词元是AI模型处理信息的最小单元，调用量增长直接反映模型使用活跃度与产业价值创造能力。

数据/训练行业动态

11:33

IT之家（RSS）

2026 年中国网络文明大会 5 月 19 日举办，将发布《人工智能应用伦理安全指引（1.0 版）》

2026年中国网络文明大会将于5月19日至20日在广西南宁举办，主题为“文明网络空间昂扬奋进力量”。大会包含开幕式、主论坛及14场分论坛。主论坛将发布2026年全国网络文明建设优秀案例，并启动全民数字素养与技能提升月活动。本届大会特设人工智能赋能网络文明建设分论坛，届时将发布《人工智能应用伦理安全指引（1.0版）》。该指引聚焦人工智能对社会关系、公共秩序等方面的影响，旨在为实践提供参考，守好安全底线。

安全/对齐政策/监管

11:33

IT之家（RSS）

谷歌 Pixel 11 系列手机 Tensor G6 芯片爆料：7 核 CPU，沿用 5 年前 GPU

据爆料，谷歌预计于2026年发布的Pixel 11系列手机将搭载Tensor G6芯片。该芯片的CPU架构将改为1+4+2的7核设计，大核升级为ARM C1 Ultra或C1 Pro，主频达4.11GHz。但其GPU被指将沿用2021年发布的PowerVR CXT-48-1536，被称为“古董级”图形技术。为弥补GPU弱势，谷歌增强了NPU以优化AI负载，并集成了全新的Titan M3安全协处理器以提升硬件级数据保护。这一“重NPU、轻GPU”的策略被认为有助于控制成本，但可能影响游戏体验。

Google产品更新端侧

11:33

IT之家（RSS）

谷歌翻译 20 周年：最常见短语为"谢谢"，新增发音练习功能

谷歌翻译迎来20周年，目前支持近250种语言和逾6万个语言对，覆盖全球约95%人口。官方推出发音练习功能，在安卓版应用中利用AI分析用户语音并提供即时反馈，帮助改善发音，该功能已在美国和印度上线，支持英语、西班牙语和印地语。数据显示，谷歌翻译最常用短语为“谢谢”，其他热门查询包括“你好吗？”、“我爱你”、“你好”和“请”。

Google产品更新语音

11:33

IT之家（RSS）

全国首家宇树科技直营店开业

宇树科技全国首家直营店在北京王府井银泰in88商场1层开业，消费者可近距离体验机器狗和人形机器人。该店在2025年底已开始装修围挡，近期通过招聘信息透露门店产品顾问岗位薪资为10-15K·13薪，并要求具备一年以上消费电子门店工作经验。

具身智能行业动态

11:19

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ling-2.6-1T

inclusionAI 发布了 Ling-2.6-1T 模型，这是一个包含 1 万亿参数的大型语言模型。该模型基于开源与开放科学理念构建，旨在推动人工智能技术的进步与民主化。新模型在多项基准测试中展现出更强的语言理解与生成能力，同时提供了更高效的推理性能。这一发布标志着开源社区在规模化 AI 模型开发上的重要进展，为研究者和开发者提供了可访问的高性能工具。

Hugging Face开源生态模型发布

关联讨论 1 条

10:39

Hacker News 热门（buzzing.cc 中文翻译）

Claude 系统的提示词漏洞导致用户蒙受经济损失，并使受管代理无法正常工作

Claude AI系统的一个提示词漏洞被曝光，导致用户遭受直接经济损失，并使受管代理完全失效无法工作。该漏洞通过GitHub issue报告，在技术社区引发热议，在Hacker News上获得107点关注度。此问题突显了AI代理在提示词安全方面的缺陷，可能影响依赖此类系统的商业应用和用户体验。

智能体Anthropic安全/对齐行业动态

10:38

HuggingFace Daily Papers（社区热门论文）

递归多智能体系统

本研究将递归计算从单一模型扩展至多智能体系统，提出RecursiveMAS框架。该框架通过轻量级RecursiveLink模块连接异构智能体，形成协作循环，实现潜在思维生成与状态传递，并采用内外双循环算法进行全系统协同优化。理论分析表明其效率高于传统文本交互系统且训练稳定。在数学、科学、医学等9项基准测试中，该框架相比先进基线平均准确率提升8.3%，推理速度加快1.2–2.4倍，token使用量减少34.6%–75.6%。代码与数据已公开。

智能体数据/训练论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

DV-World：真实场景下的数据可视化智能体评测基准

针对现有基准在环境隔离、任务单一和意图假设完美等方面的局限，本文提出了DV-World基准。该基准包含260个任务，旨在真实工作流中评估数据可视化智能体。它涵盖三大领域：支持原生电子表格图表创建与诊断的DV-Sheet、要求跨编程范式重构可视化以适应新数据的DV-Evolution，以及通过模拟模糊需求测试主动意图对齐的DV-Interact。基准采用结合数值对齐与多模态大模型语义视觉评判的混合评估框架。实验表明，当前最先进模型整体表现不足50%，凸显其处理真实世界复杂挑战的能力存在严重缺陷。DV-World为引导智能体发展企业级综合专业知识提供了现实测试平台。

智能体编码论文/研究评测/基准

10:38

HuggingFace Daily Papers（社区热门论文）

通过技能图实现可扩展的终端任务合成

SkillSynth 是一个基于场景中介技能图的自动化终端任务合成框架，旨在解决终端智能体训练中高质量、多样化执行轨迹稀缺的问题。该方法首先构建大规模技能图，以场景作为中间过渡节点连接多样化的命令行技能；随后从图中采样路径作为真实工作流的抽象，并通过多智能体系统将其实例化为可执行任务。通过在图形采样的工作流路径上进行任务合成，SkillSynth 能够显式控制解决合成任务所需的最小执行轨迹的多样性。在 Terminal-Bench 上的实验验证了其有效性。此外，SkillSynth 合成的任务实例已用于训练 Hy3 Preview，提升了其在终端环境下的智能体能力。

智能体数据/训练论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

视频生成的系统性后训练框架

研究团队提出一个系统性后训练框架，旨在弥合大规模视频扩散模型预训练性能与实际部署需求之间的差距。该框架包含四个协同阶段：首先通过监督微调将基础模型转化为稳定的指令跟随策略；随后采用专为视频扩散定制的新型群组相对策略优化方法进行基于人类反馈的强化学习，以提升感知质量和时间连贯性；接着集成专用语言模型进行提示词增强以优化用户输入；最后通过推理优化提升系统效率。实验表明，该统一流程能有效减少常见伪影，显著提升可控性和视觉美感，同时严格遵守采样成本限制。

数据/训练视频论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

IAM：身份感知的人体运动与形状联合生成

研究团队提出了一种身份感知的人体运动生成框架IAM，旨在解决现有文本驱动运动生成模型忽略身体形态对运动动态影响的问题。该框架通过多模态信号（自然语言描述和视觉线索）表征身份，并引入运动与形状联合生成范式，能同时合成运动序列和身体形状参数。实验在运动捕捉数据集和大规模真实世界视频上进行，结果表明该方法在保持高运动质量的同时，显著提升了运动真实感及运动与身份的一致性。

具身智能多模态论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

通过再生实现精修：扩大修改空间提升统一多模态模型的图像精修能力

针对当前统一多模态模型（UMMs）主要遵循的基于编辑（RvE）精修范式存在修改空间受限、指令描述粗略导致精修不完整的问题，本研究提出了一种基于再生（RvR）的新框架。RvR将精修任务重新定义为条件图像再生，其核心是依据目标提示词和初始图像的语义令牌进行整体图像再生，而非生成粗略的编辑指令并强制保留像素。这种方法突破了原有范式对修改空间的限制，实现了更完整的语义对齐。实验结果表明，RvR在多个基准测试上均取得显著性能提升：Geneval得分从0.78升至0.91，DPGBench从84.02提高到87.21，UniGenBench++则从61.53跃升至77.41。

图像生成多模态论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

互促学习：面向快速自回归音视频角色生成的双模式自演进框架

本文提出Mutual Forcing框架，用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练，先训练单模态生成器，再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型，将少步与多步生成集成于单一权重共享模型中，通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法，本方法仅需4至8步即可达到或超越基线性能，在效率与质量上均具优势。该方法无需额外双向教师模型，支持更灵活的训练序列长度，并可直接从真实配对数据中学习。

多模态视频论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

BARRED：通过非对称辩论合成训练定制策略护栏

BARRED框架仅需任务描述和少量未标注样本，即可生成忠实且多样的合成训练数据。该方法将领域空间分解为多个维度以确保全面覆盖，并采用多智能体辩论验证标签正确性，从而构建高质量训练语料。实验表明，基于此合成数据微调的小型语言模型，在多种定制策略任务上持续超越包括推理模型在内的先进专有大模型及专用护栏模型。消融研究证实，维度分解与辩论验证对确保数据多样性和标签保真度至关重要。该框架消除了对大量人工标注的依赖，为精准定制护栏提供了可扩展方案。

智能体安全/对齐论文/研究

10:33

IT之家（RSS）

特斯拉用 V14 Lite 让 HW3 老车主体验 FSD 最新功能，后续扩展至更多国际市场

特斯拉宣布将于6月底在美国为搭载HW3硬件的车辆推出FSD v14 Lite软件更新。该版本是完整v14的压缩蒸馏版，旨在让老款车型体验最新的全自动驾驶功能，如自主驶出车位、城市道路导航等，其行为逻辑与HW4车辆相同，但反应速度和决策全面性可能稍逊。特斯拉计划将此更新后续扩展至更多国际市场，但暂无确切时间表。对于硬件瓶颈，公司正筹备名为“AI4”或“AI4-plus”的硬件升级方案，并为老车主提供摄像头升级或以旧换新折扣。

产品更新端侧

10:33

IT之家（RSS）

华硕灵耀 14/16 Air 骁龙版开售：后者 X2 Elite Extreme 处理器，48GB+1TB 售 13999 元

华硕灵耀14 Air和16 Air骁龙版轻薄本现已开售。14 Air搭载骁龙X2 Elite处理器、16GB内存和1TB固态硬盘，售价11999元；16 Air则采用性能更强的骁龙X2 Elite Extreme处理器，配备48GB内存和1TB固态硬盘，售价13999元。两款机型均采用陶瓷铝材质，重量分别为980克和1.2千克，厚度13.9毫米。它们配备了2.8K 120Hz OLED屏幕，峰值亮度1100尼特，覆盖100% DCI-P3色域，并内置70Wh电池，续航时间分别达29.6小时和21小时。

其他端侧

09:39

Hacker News 热门（buzzing.cc 中文翻译）

ChatGPT 会展示广告。以下是完整的归因流程

ChatGPT 已开始展示广告，并公开了完整的广告归因流程。该流程详细描述了广告从展示、用户互动到转化跟踪的全链条机制，确保广告效果可准确测量和优化。文章源自 buchodi.com，在 Hacker News 上获得 114 点关注，探讨了这一商业化功能的技术实现与行业影响。

OpenAI产品更新行业动态

09:35

Tomer Tunguz 博客（VC 分析）

精选63

AI销售中的三个核心问题

AI销售策略正从询问软件预算转向三个核心问题：软件总预算、劳动力总预算，以及客户期望三年后两者的比例。这一转变将销售对话提升至战略层面。当前数据显示，销售、支持和工程部门的人力与软件成本比分别为10:1、4:1和最高25:1，高比率意味着巨大的AI替代潜力。新的销售流程分为两步：先切入现有软件预算，再拓展至AI所释放的劳动力预算，最终目标是重新定义企业对成本结构的认知。

智能体大佬观点现象/趋势

推荐理由：Tunguz 用一张劳动力/软件支出比率表把 AI 销售的底层逻辑讲透了，做 ToB SaaS 或 Agent 产品的人看完会重新想自己的定价天花板在哪。

09:33

IT之家（RSS）

美国国防部确认与谷歌 AI 合作并暗讽 Anthropic：过度依赖单一供应商不是好事

美国国防部AI负责人确认，正扩大使用谷歌Gemini AI模型于机密项目，并已签署相关协议。此举发生在约两个月前国防部将Anthropic列为供应链风险并终止合作之后。国防部强调避免过度依赖单一供应商，目前也在与OpenAI等其他供应商合作以实现作战能力现代化。与此同时，国防部与Anthropic的法律纠纷持续，联邦上诉法院近期驳回了Anthropic要求暂缓将其列入黑名单的请求。

Anthropic政策/监管行业动态

09:33

IT之家（RSS）

远程执行漏洞被 GitHub 紧急修复：1 条 git push 命令，可访问数百万代码库

安全机构披露 GitHub 存在高危漏洞 CVE-2026-3854，攻击者仅需一条标准 git push 命令，即可利用 X-Stat 标头注入缺陷在 GitHub 后端执行任意代码，从而访问数百万公共和私有仓库。GitHub 在接报后 6 小时内修复了云端平台并发布了企业版补丁，但仍有 88% 的企业版实例未升级，需立即更新至 3.19.3 或更高版本。此次漏洞是首次利用 AI 辅助工具发现，标志着 AI 技术正重塑安全研究。

GitHub行业动态

09:33

IT之家（RSS）

全新一代红旗 H9 汽车官图发布：中式宫殿礼序章法外观、首搭华为乾崑智驾 ADS 5

一汽红旗正式发布全新一代红旗H9官图。新车外观采用中式宫殿礼序章法设计，主打中式豪华美学。核心亮点是首次搭载华为乾崑智驾ADS 5系统、鸿蒙智舱HarmonySpace及红旗自研智能底盘，配备双光路896线激光雷达等硬件，智能驾驶能力显著提升。内饰采用中轴对称环抱式设计，配备智能语音助手、舒享座椅及HUAWEI SOUND音响。动力方面搭载首创的2.0T纵置两档混动系统，并配备主动可变阻尼减震与四挡空气悬架。

端侧行业动态

09:33

IT之家（RSS）

吉利银河 M7 上市 12 小时大定破 1 万台，限时 10.98 万元起

吉利银河M7上市12小时内大定订单突破1万台。新车定位紧凑型插电混动SUV，共推出4款配置，限时起售价为10.98万元。其核心亮点包括采用GEA Evo架构，CLTC纯电续航最高225公里，综合续航达1730公里，并支持15分钟快充。车辆搭载Flyme Auto 2智能座舱与千里浩瀚H3智驾方案，具备高速NOA和全场景泊车辅助功能。动力上搭载1.5L发动机与前置单电机，0-100公里/小时加速时间为7.7秒。

行业动态

09:33

IT之家（RSS）

蚂蚁集团百灵大模型开源 Ling-2.6-flash，提供 BF16、FP8、INT4 等版本

蚂蚁集团百灵大模型宣布开源Ling-2.6-flash，提供BF16、FP8、INT4等多个版本供开发者灵活选用。该模型总参数量104B，激活参数7.4B，是一款Instruct模型。官方基于开发者反馈优化了中英文切换及主流编程框架适配效果。其核心优势包括：采用混合线性架构，在4卡H20上推理速度最快达340 tokens/s；通过Token效率优化，在评测中消耗的tokens仅为同类模型的约1/10；针对Agent场景增强了工具调用与任务执行能力，在多项评测中达到先进水平。模型已在Hugging Face和ModelScope平台开源。

智能体开源生态模型发布

08:57

OpenAI：官网动态（RSS · 排除企业/客户案例）

Our commitment to community safety

OpenAI 通过多层防护机制保障 ChatGPT 的社区安全。具体措施包括内置模型安全护栏、实时监测滥用行为、严格执行使用政策，并与外部安全专家深度合作。这些系统性防护旨在主动识别并拦截有害内容生成，同时持续优化安全策略以应对新型风险。平台强调技术防护与人工审核相结合，致力于在保持 AI 对话能力的同时维护用户安全。

OpenAI安全/对齐

08:39

Hacker News 热门（buzzing.cc 中文翻译）

一份优秀的 AGENTS.md 文件相当于模型的升级；而一份糟糕的文件，其效果甚至不如完全没有文档

AGENTS.md文件的质量直接影响AI代理的性能表现。一份优秀的AGENTS.md文件能像模型升级一样显著提升代理能力，而一份糟糕的文档反而会损害性能，其效果甚至不如完全没有文档。该观点源自技术社区讨论，相关文章在Hacker News上获得了100点热度，强调了为AI代理编写清晰、有效文档的重要性。

智能体教程/实践编码

08:33

IT之家（RSS）

突破 2 纳米工艺极限：DNA 生物晶体管实现分子级计算与存储双重突破

韩国科学技术院研究团队成功开发出一种基于DNA的生物晶体管，突破了传统硅基半导体2纳米的微型化极限。该技术利用间距仅0.34纳米的DNA分子，通过可逆组装与解组装响应外部信号，实现了分子层面的计算与信息存储双重功能，克服了传统DNA电路一次性使用的缺陷。这项模拟半导体晶体管原理的成果，有望应用于体内分子诊断装置，实时监测疾病信号，为生物计算与医疗技术开辟了新方向。研究已发表于《Science Advances》。

数据/训练论文/研究

08:33

IT之家（RSS）

英伟达推出 Nemotron 3 Nano Omni 模型：采用 30B-A3B 混合 MoE 架构，吞吐量最高提升 9.2 倍

英伟达发布开源全模态推理模型Nemotron 3 Nano Omni，采用30B‑A3B混合MoE架构，集视频、音频、图像和文本处理于一体。该模型旨在替代多模型链，降低推理成本与编排复杂度。在多项基准测试中表现领先，尤其在视频推理任务中，其系统吞吐量相比其他开放式全模态模型最高提升约9.2倍，文档推理任务最高提升约7.4倍。模型权重、训练配方及数据集已完全开放，支持开发者在各类环境中定制部署。

智能体多模态推理模型发布

08:33

IT之家（RSS）

iPad 版 AI 浏览器 Comet 上线，适配苹果 iPadOS 多任务处理

Perplexity公司宣布其AI浏览器Comet现已全面适配iPadOS。新版本原生支持iPad的多任务处理功能，允许用户同时开启多个浏览器窗口进行操作。除了传统网页浏览，该浏览器深度整合了OpenAI和Anthropic等主流AI模型，为用户提供智能搜索与交互体验。这是Comet在苹果生态内的又一次重要扩展，继今年3月登陆iPhone和此前推出Mac版之后，现已覆盖iPad平台。此外，该公司近期还在Mac平台推出了名为“Personal Computer”的智能体助手功能。

产品更新搜索

08:00

HuggingFace Daily Papers（社区热门论文）

HiL-Bench（人在回路基准测试）：智能体知道何时该求助吗？

HiL-Bench 基准测试旨在评估智能体在任务信息不完整或模糊时，能否判断何时应自主执行、何时需向人类求助。该测试包含人为设置的障碍信息，核心指标 Ask-F1 综合衡量提问精准度与障碍召回率，以平衡过度提问与盲目猜测。评估显示，当前前沿模型在判断求助时机上存在普遍缺陷，其完整信息性能仅能恢复一小部分。失败模式主要体现为三种：过度自信未察觉信息缺口、虽检测到不确定性但仍持续出错、以及提出宽泛模糊的求助。通过基于 Ask-F1 的强化学习训练，一个 32B 模型在求助质量与任务通过率上均获得提升，且能力可跨领域迁移，表明判断力可通过训练改进。

智能体arXiv论文/研究评测/基准