AIHOT

5月8日

17:26

HuggingFace Daily Papers（社区热门论文）

近年来，视频编辑在自然语言指令引导下发展迅速，但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互，面临高质量数据匮乏的挑战，导致现有模型生成静态、不自然背景。为此，研究团队设计可扩展数据生成流程，以解耦方式分别生成前景与背景引导，并实施严格质量过滤，构建了Sparkle数据集（包含约14万视频对，覆盖五种常见背景更换主题）及迄今最大的专项评估基准Sparkle-Bench。实验表明，基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。

arXiv多模态开源/仓库视频

17:20

IT之家（RSS）

谷歌试点软件工程师面试新流程：候选人可使用 AI 助手

谷歌正在美国部分团队试点新的软件工程师面试流程，允许候选人在“代码理解”环节使用获批的AI助手Gemini，以模拟生成式AI时代的真实工作环境。面试官将评估候选人的AI熟练度，包括提示词工程和输出验证能力。此外，面试改革还包括在行为面试轮加入技术设计讨论，以及对初级候选人采用开放式工程挑战。谷歌表示，此举旨在使面试更契合现代工程实践，目前公司内部75%的新代码由AI生成。

Google编码行业动态

17:20

IT之家（RSS）

AI 搜索电视剧出现盗版链接，法院判决平台不存在主观过错

一家传媒公司因AI搜索平台结果置顶其版权剧集的盗版网盘链接而提起诉讼。平台辩称其仅为搜索服务提供者，未人为干预结果，并在收到通知后及时断开链接。法院审理认为，平台基于大语言模型的搜索引擎无法避免索引公共网页内容，现有证据无法证明其存在人为编辑或推荐行为，主观上无过错。平台已履行算法备案义务，提供顺畅投诉渠道并及时处理，尽到了法定义务。最终，法院驳回原告全部诉讼请求，二审维持原判。判决强调，平台胜诉核心在于尽到义务，若明知盗版仍刻意推荐或拖延处理，则需承担责任。

搜索政策/监管

16:23

HuggingFace Daily Papers（社区热门论文）

TIDE：让每一层都知晓上下文之下的令牌身份

研究指出，现代大语言模型普遍存在“单次令牌注入”设计缺陷，即令牌索引仅在输入层使用一次后便被丢弃。这导致了“稀有令牌训练不足”和“上下文坍缩”两个结构性问题。为此，我们提出了TIDE方法，通过引入一个由K个独立记忆块组成的“嵌入记忆”模块来增强标准Transformer。该模块将令牌索引映射为上下文无关的语义向量，并通过一个深度条件软路由将其注入到每一层。理论与实验证明，TIDE能有效缓解上述问题，并在多种语言建模及下游任务中提升模型性能。

数据/训练论文/研究

16:23

Hugging Face：Blog（RSS）

精选70

在AMD ROCm平台微调临床问答模型MedQA：无需CUDA

一篇博客介绍了在AMD ROCm开源计算平台上微调临床问答AI模型MedQA的实践。该工作成功摆脱了对英伟达CUDA生态的依赖，证明了在AMD GPU上高效运行并适配医疗领域大模型的可行性。此案例源于Lablab.ai与AMD联合举办的开发者黑客松，为在非CUDA环境中进行AI训练提供了具体的技术参考。

Hugging Face教程/实践数据/训练

推荐理由：如果你手头只有AMD显卡却想跑医疗AI微调，这篇官方教程把ROCm实操流程讲透了，填补了生态里一个不小的空缺。

16:16

IT之家（RSS）

海信 Vidda G11 智能音频眼镜发布：6mic 空间拾音、待机 12 天，首发价 1299 元起

海信Vidda G11智能音频眼镜正式发布，首发价1299元起。产品主打轻量化设计，提供行业最轻的26.5克钛镜框和最细5.3毫米镜腿。音频方面首发搭载6麦克风空间拾音系统，配合自研AI算法，支持5米/秒抗风噪。续航表现突出，标称待机时间长达12天，实用续航47.2小时，并支持10分钟充电50%的快充功能。

产品更新语音

16:16

IT之家（RSS）

铭凡 M2 迷你主机实物厦门现身：Ultra 7 356H + DDR5

铭凡在厦门发布会上展示了新款迷你主机M2。该机型属于Elite Mini系列，搭载英特尔酷睿Ultra 7 356H处理器，配备2个DDR5 SO-DIMM插槽，最高支持128GB系统内存，并具备2个M.2 2280 NVMe SSD盘位。其支持Wi-Fi 7，外部接口丰富，包括正面2个USB-A 10Gbps和1个USB-C 40Gbps，背面另有多个USB、HDMI 2.1、DisplayPort 1.4以及2个2.5GbE网口。该设备宣称支持Qwen-35B-A3B、GPT-OSS 20B等大模型的本地运行。

产品更新推理端侧

16:16

IT之家（RSS）

阿里千问 AI 眼镜 S1 获升级：引入主动服务能力、新增支持信息空间 3D 显示

阿里千问AI眼镜S1迎来重要升级，核心是引入主动服务能力。眼镜能结合时间、地点和环境，主动提供如“出门带伞”、“抬头活动”等提醒。本月将上线打车、闪购、规划行程、购票等生活AI服务，减少对手机的依赖。同时，产品新增“空间3D显示”能力，通过双光机与双目立体成像技术，使信息通知、导航等内容呈现具有纵深感的立体视觉效果，显示更自然真实。

产品更新多模态端侧

16:16

IT之家（RSS）

索尼、台积电拟建立战略合作，将在日本成立图像传感器合资企业、探索物理 AI

索尼半导体与台积电签署备忘录，计划成立合资公司，共同开发制造下一代图像传感器。索尼将持有多数股权并控制合资公司，研发与生产将设于其日本熊本县的新晶圆厂。双方旨在结合索尼的传感器设计与台积电的制程技术，以提升产品性能，并探索汽车、机器人等物理AI应用的新机遇。合资公司的成立取决于后续正式协议的签署。

具身智能端侧行业动态

16:16

IT之家（RSS）

瑞芯微推出 8nm 中阶 AIoT 芯片 RK3572：性能翻倍、功耗减半

瑞芯微正式发布面向中阶AIoT市场的8nm处理器RK3572。相比上一代同定位平台，其性能提升超过100%（性能翻倍），典型场景功耗降低50%以上（功耗减半），大部分应用场景的最小系统功耗低于1W。芯片采用2×Cortex-A73 + 6×Cortex-A53的CPU架构，集成Mali-G310 GPU和算力达4TOPS的NPU。它支持LPDDR4(x)/5(x)内存及多种存储接口，搭载12M ISP，支持4K@60fps+2K@60fps双屏异显，并提供了丰富的工业控制接口。

产品更新端侧

15:23

HuggingFace Daily Papers（社区热门论文）

无基准场景下的LLM安全性比较评分验证框架

针对缺乏标注基准的语言、领域或监管场景，本文提出“无基准比较性安全评分”框架，明确了基于场景审计作为部署证据的合约条件。该方法依赖固定的场景包、评分准则等要素，并通过工具有效性链替代真实标签验证，包括对安全与篡改版本的响应灵敏度、目标驱动方差的主导性及重复运行的稳定性。工具SimpleAudit在挪威语安全包上验证有效。实际案例表明，模型安全性取决于具体场景类别和风险度量，因此需完整报告评分、差异、临界率等多维度信息，而非简化为单一排名。

安全/对齐论文/研究评测/基准

15:16

IT之家（RSS）

迎广科梵特 covalent 工作站全塔台式机箱开启预约：支持 EEB / EATX 主板，999 元

迎广科梵特 covalent 工作站全塔台式机箱已在京东开启预约，售价999元。这款机箱专为AI与高性能计算设计，采用全塔结构，提供钢板或强化玻璃侧板选项。它支持EEB和EATX主板，可容纳多张大型显卡，兼容420mm一体式水冷，预装4颗CV140风扇。存储方面支持安装3颗3.5英寸或6颗2.5英寸硬盘，并内置风扇集线器、快拆侧板等模块化设计，满足高扩充与散热需求。

其他部署/工程

15:16

IT之家（RSS）

铭凡发布 S5：全球首款无风扇 5 盘位全闪 AI NAS

铭凡发布了全球首款无风扇5盘位全闪AI NAS产品S5。该产品采用第三代英特尔酷睿处理器，通过CNC铝合金机身、处理器热管及厚实的散热鳍片实现完全被动散热。其最高配备16GB LPDDR5X-7200内存，提供5个PCIe Gen4 M.2 SSD盘位，最大并发速度达10.8GB/s。外部接口丰富，包括10GbE和2.5GbE网口、USB-A、HDMI 2.1、双雷电4接口，并集成了Wi-Fi 7无线模块。

产品更新端侧

15:16

IT之家（RSS）

铭凡推出全闪 AI NAS S7：可容纳 7 块 PCIe 4.0 SSD、双雷电 4 接口

铭凡发布了面向极客的高端全闪AI NAS S7。该产品基于MS-03迷你主机工作站打造，搭载第三代英特尔酷睿Ultra 386H处理器，最大亮点是可容纳7块PCIe 4.0 NVMe SSD（包括4块x2和3块x4规格），并配备NAS状态副屏。接口配置豪华，提供2个40Gbps USB4（雷电4）、2个10Gbps SFP+光口、1个10Gbps RJ45和1个2.5Gbps vPro RJ45网络接口。设备运行铭凡自有操作系统MinisCloud。

产品更新端侧

15:16

IT之家（RSS）

新研究点破 AI 生图弱点：透视线和阴影最容易露馅

《科学》最新研究指出，AI图像生成器虽已修复畸形手指等早期缺陷，但在光照、阴影、反射和透视几何上仍存在明显破绽。研究者指出，鉴别重点已转向“物理规则是否合理”。AI生成的图片因色彩鲜艳、戏剧感强，更接近大众对现实的想象，故易于传播。论文推荐通过检查“消失点”来鉴别：现实中平行线应汇聚于同一点，若图像中线条无法合理相交，则空间关系不成立。此方法同样适用于分析反射与阴影的平行光透视规律。

图像生成安全/对齐教程/实践

15:16

IT之家（RSS）

荣耀MagicOS五月更新上线：新增支持 AirPods 互联、文件夹自动命名等

荣耀MagicOS五月更新正式推送，覆盖多款机型。核心更新包括：新增对AirPods的互联支持，可实现快速连接与电量查看；新增文件夹自动命名、动态壁纸通透模式及AI记账功能。YOYO助手升级AI情报官、过敏提醒等功能。系统层面优化了多音量面板动效，新增充电分离、截屏纯净模式、AI变声及游戏脚步声增强。互联生态扩展至长城魏牌V9X车机一碰投屏及荣耀视频一碰传。此外，相机构图引导、图库AI电影追色等多项体验也得到更新。

产品更新其他端侧

14:16

IT之家（RSS）

Anthropic 发布 Claude for Microsoft 365，可跨 Office 文档工作与同步

Anthropic正式推出适用于Excel、PowerPoint和Word的Claude，并面向所有付费用户公测Outlook版。该AI助手能跨Microsoft 365应用协同工作，如在Outlook中分类邮件并起草回复，在Word处理附件，在Excel分析数据，再于PowerPoint生成演示文稿。所有操作无需用户重复解释上下文，更改可在并排打开的文档间自动同步，对话记录随文件持久保存。付费用户现可通过Microsoft管理中心部署使用。

智能体Anthropic产品更新

14:16

IT之家（RSS）

精选71

消息称 Anthropic 拟今夏融资数百亿美元，冲击万亿估值反超 OpenAI

据《金融时报》报道，人工智能公司Anthropic计划今年夏季进行大规模融资，以扩展计算能力。此轮融资额最高可达500亿美元，融资前估值预计达9000亿美元，完成后公司估值将接近1万亿美元，从而超越竞争对手OpenAI目前约8520亿美元的估值。公司年化收入预计很快将超过450亿美元，较去年底大幅增长。投资者意在为其年底可能的IPO提前建立持仓，但具体条款尚未最终确定。

AnthropicOpenAI行业动态

推荐理由：这是AI史上最大的私人融资之一，如果达成，Anthropic估值将反超OpenAI，军备竞赛从技术烧到资本，IPO前的这一轮值得关注。

14:16

IT之家（RSS）

精选72

400 万周活的 Codex 推出 Chrome 扩展，OpenAI 把 AI 带进浏览器工作流

OpenAI为Chrome浏览器推出Codex扩展，将AI深度集成至浏览器工作流。该扩展允许Codex在浏览器内直接执行任务，如测试Web应用、读取多标签页上下文及调用开发者工具，旨在处理依赖实时页面状态和多标签信息的复杂连续工作。OpenAI强调扩展不会接管浏览器控制权，用户保有完全控制。目前Codex周活用户已超400万，较年初增长8倍，其应用正从代码辅助扩展至更广泛的日常浏览器任务。

智能体OpenAI产品更新编码

关联讨论 11 条

推荐理由：Codex把AI编程能力直接塞进Chrome，不是小步更新，是把浏览器变成了你的开发环境。400万周活证明需求真实存在，做前端和测试的可以立刻用起来。

14:16

IT之家（RSS）

法国检方再次传唤马斯克，这次是刑事指控

法国检方于5月8日再次传唤埃隆·马斯克及X平台前CEO琳达·亚卡里诺，要求二人就针对X的初步刑事指控作出回应。此次调查已升级为正式刑事程序，涉及算法偏见、违反通信保密、传播儿童色情内容以及Grok聊天机器人制作深度伪造图像等多项指控。马斯克此前未出席自愿问询，美司法部拒绝配合并指责法方调查具政治动机。法国检方强调，调查旨在确保X在法运营遵守当地法律，若被传唤人未到案，将面临缺席指控。

政策/监管行业动态

14:16

IT之家（RSS）

新华三发布面向万亿级大模型的全系列超节点 UniPoD S80000

在NAVIGATE 2026峰会上，新华三发布了面向万亿级大模型的全系列超节点UniPoD S80000，覆盖32卡至1024卡，最高可扩展至16384卡，提供一站式智算解决方案。同时，围绕“AI in ALL”战略，推出了一系列全栈新品，包括：高密全液冷整机S90000，实现1U 6CPU业界最高密度；单芯片102.4T智算交换机，大幅提升带宽与利用率；AI原生存储X20000系列，单节点带宽达200GB/s；新一代AI智能云，支持超大规模纳管；业界最高性能AI防火墙M9000-X；以及凝聚了23年运维经验的灵犀运维智能体。

产品更新部署/工程

14:16

IT之家（RSS）

CoreWeave 2026 财年第一财季亏损 7.40 亿美元，同比亏损扩大 134.92%

CoreWeave发布2026财年第一财季报告，营业总收入达20.78亿美元，同比大幅增长111.61%。然而，公司归母净利润亏损7.40亿美元，同比亏损扩大134.92%。尽管利润端承压，经营现金流大幅改善至29.84亿美元。公司收入积压订单高达994亿美元，并与Meta签署了价值210亿美元的新合作协议。为支持算力扩张，公司获得了英伟达20亿美元投资及85亿美元贷款融资。

数据/训练行业动态

13:36

Hacker News 热门（buzzing.cc 中文翻译）

ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当，且活跃参数少于 10 亿

ZAYA1-8B 是一个新发布的开源人工智能模型，在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿，突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效，可能降低部署成本并加速推理过程，为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步，其开源性质有望推动进一步研究和应用。

DeepSeek推理模型发布编码

13:16

IT之家（RSS）

中国移动发布 MoMA 平台：单位 Token 成本压降 30%，接入超 300 款 AI 模型

中国移动发布移动模型服务平台MoMA，接入超过300款业界主流AI模型，包括自研“九天”及DeepSeek、通义千问等。平台基于国产算力部署自研推理引擎，通过智能路由与资源调度，实现单位Token成本降低约30%，资源占用率下降50%以上。其智能路由引擎支持成本、效果、均衡三种优先策略，并能实现故障秒级切换。平台还提供“机密模型”服务，通过硬件隔离技术保障政务、金融等高安全需求场景的数据安全。

产品更新推理部署/工程

12:36

Hacker News 热门（buzzing.cc 中文翻译）

使用 Claude Mythos 预览版增强 Firefox 安全性

Mozilla在Firefox浏览器中整合了Claude Mythos预览版，以增强其安全性。这一集成主要带来了内存安全方面的关键改进，通过先进的内存分配器与漏洞缓解技术，旨在显著降低浏览器遭受内存相关攻击的风险。该更新是Firefox持续强化安全架构的一部分，目前已在预览版本中提供测试。

Anthropic安全/对齐教程/实践

12:22

HuggingFace Daily Papers（社区热门论文）

多模态领域泛化真的进步了吗？一项全面的基准研究

针对多模态领域泛化评估标准不统一的问题，研究团队推出了首个统一基准MMDG-Bench。该基准涵盖动作识别、故障诊断和情感分析三大任务的六个数据集，系统评估了六种模态组合和九种方法在多种场景下的性能。基于大规模实验得出关键结论：现有专用方法相比基线提升有限；无单一方法能持续领先；当前性能与理论上限差距显著；三模态融合未稳定优于双模态；所有方法在数据损坏和模态缺失时性能均大幅下降，部分还损害了模型可信度。

多模态论文/研究

12:22

HuggingFace Daily Papers（社区热门论文）

何时信任想象：世界行动模型的自适应动作执行

针对世界行动模型（WAMs）执行固定预测动作、缺乏实时验证的问题，本研究提出一种自适应执行框架。该框架通过轻量级验证器FFDC，联合推理预测动作、视觉动态、真实观测与语言指令，以评估剩余动作序列的可信度，从而根据预测与观测的一致性动态调整执行的动作块大小。该方法在保持长时程执行效率的同时，提升了机器人在接触密集或困难阶段的响应能力。实验表明，其在RoboTwin基准上显著减少了模型前向传递与执行时间，并提高了任务成功率。

具身智能论文/研究

12:16

IT之家（RSS）

三星被曝开发 AI 驾驶助手：精准追踪刹车 / 转弯等，周报推送个性化建议

据科技媒体挖掘三星One UI 9早期固件代码，发现其正在开发一款名为Driving Insights的AI驾驶助手应用。该应用利用手机传感器和AI算法，精准追踪用户的加速、转弯、刹车等驾驶行为数据，旨在帮助用户了解并改善驾驶习惯。应用支持连接车载蓝牙后自动记录行程，并可生成个性化驾驶周报，通过三星Now Brief推送。周报会基于数据分析提供反馈，如评价驾驶风格保守或动态，并在长途驾驶后提醒用户注意休息，防止疲劳驾驶。

产品更新多模态端侧

12:16

IT之家（RSS）

索尼 Xperia 1 VIII 手机再曝：4 种颜色，有望 5 月 20 日发布

索尼Xperia 1 VIII手机最新渲染图曝光，确认将采用全新方形相机模组，并提供黑曜石、董青石、石榴红及天然金四种配色。新机预计于2026年5月20日发布。核心配置包括6.5英寸120Hz OLED屏幕、高通第五代骁龙8至尊版芯片及12GB内存，并保留3.5mm耳机孔与双卡支持。影像系统方面，长焦镜头可能从上一代的连续光学变焦改为传统的4800万像素潜望式镜头，支持固定的3倍光学变焦。

其他

11:22

HuggingFace Daily Papers（社区热门论文）

MiA-Signature：面向长上下文理解的全局激活近似方法

研究提出“心智景观激活签名”概念，通过子模优化选取高层概念以覆盖被激活的上下文空间，并可借助工作记忆进行轻量迭代更新。该压缩表示能近似全局激活状态对下游处理的影响，同时保持计算可行性。将MiA-Signature集成至RAG与智能体系统中，在多项长上下文理解任务上实现了持续的性能提升。

智能体检索增强论文/研究

11:22

HuggingFace Daily Papers（社区热门论文）

无意义文本有助于推理：提示空间扰动拓宽探索范围

针对大型语言模型强化学习中的“零优势问题”，本研究提出了LoPE训练框架。该方法通过在原始提示前随机添加由Lorem Ipsum等低困惑度伪拉丁文本构成的无关序列，对提示空间进行扰动，从而为困难问题开辟新的推理路径。在1.7B至7B参数规模的模型上的实验表明，该方法显著优于使用原始提示的重采样策略。分析进一步证实，其他基于拉丁语的随机序列同样可作为有效扰动源。LoPE为拓宽LLM强化学习的探索范围提供了一个简单而有效的基线方法。

推理数据/训练论文/研究

11:22

HuggingFace Daily Papers（社区热门论文）

SwiftI2V：通过条件分段生成实现高效高分辨率图像到视频生成

SwiftI2V是一个针对高分辨率图像到视频生成的高效框架，旨在解决2K分辨率下的效率与保真度难题。它采用两阶段设计：首先生成低分辨率运动参考以降低计算负担，随后进行强图像条件的2K合成以恢复输入细节。其核心创新是条件分段生成技术，通过分段合成控制每步令牌预算，并利用双向上下文交互提升片段连贯性与输入保真度。在VBench-I2V基准测试中，该框架在2K分辨率下性能与端到端基线相当，同时将总GPU时间大幅减少202倍，使得在单张数据中心或消费级GPU上实现实用的2K图像到视频生成成为可能。

图像生成视频论文/研究

11:22

HuggingFace Daily Papers（社区热门论文）

A^2TGPO：具有自适应轮次裁剪的智能体轮次组策略优化

针对智能体大语言模型强化学习中稀疏结果奖励难以评估单轮贡献的问题，A^2TGPO方法优化了信息增益这一内在过程信号的利用。其核心改进包括：采用轮次组归一化，使同深度轮次间可比；通过方差重缩放的折扣累积，保持不同位置优势幅度的可比性；引入自适应轮次裁剪，根据各轮次信息增益动态调整策略更新范围。这些设计旨在更精确地进行过程信用分配，无需依赖外部奖励模型。

智能体MCP/工具推理论文/研究

11:22

HuggingFace Daily Papers（社区热门论文）

连续时间分布匹配用于少步扩散蒸馏

现有分布匹配蒸馏方法依赖离散时间锚点进行监督，易导致视觉伪影和平滑。本研究提出连续时间分布匹配方法，首次将该框架迁移至连续时间优化。其核心是通过动态连续时间表替代固定离散表，使匹配能在采样轨迹任意点执行；并引入连续时间对齐目标，利用学生速度场外推隐变量进行主动离轨匹配，以提升泛化能力并保留细节。在SD3-Medium等架构上的实验表明，该方法无需复杂辅助模块即可在少步生成中实现极具竞争力的视觉保真度。

图像生成论文/研究

11:16

IT之家（RSS）

电动车室内充电风险智能识别系统上线：零硬件改造，依托现有电表

在市场监管总局指导下，云南电网成功研发“电动车室内充电风险智能识别系统”。该系统无需硬件改造，依托现有智能电表的15分钟负荷曲线数据，通过人工智能算法识别电动自行车充电的独特“电化学指纹”，实现对高层建筑内违规入户充电行为的精准识别与预警。系统构建了大数据驱动的“技术+管理”协同治理模式，可将预警信息推送至电网、物业、社区等多方，形成闭环管理。目前已在50余个居民区试运行，识别准确率达88%。

产品更新部署/工程

11:16

IT之家（RSS）

同德：已在着手研发下一代（英伟达）显卡产品

英伟达AIC合作伙伴同德发布公告，确认旗下影驰（GALAX）品牌的海外运营将继续进行，并将GALAX、KFA2和HOF品牌的管理体系直接整合至同德集团总部。公告强调，公司已为当前一代GPU做好准备，并已着手研发即将问世的下一代英伟达显卡产品。据现有爆料，英伟达下一代游戏显卡（预计为GeForce RTX 60系列）可能基于GR20X系列GPU核心，发布时间窗口预计在2027年下半年或2028年初。

行业动态

11:16

IT之家（RSS）

揪出火狐 Firefox 浏览器 271 个漏洞，Mozilla 回应"AI 抓虫"质疑

Mozilla 工程师披露，其使用 Anthropic 的 Claude Mythos AI 模型在 Firefox 150 版本中共发现 271 个安全漏洞，其中 180 个为高危级别。为回应外界对 AI 有效性的质疑，团队公开了 12 份完整漏洞报告。他们通过自研的 Agent Harness 智能体套件引导 AI 分析代码并自主构造测试用例，同时引入第二个大模型进行结果打分以严格过滤误报，最终实现了极低的误报率，显著提升了漏洞排查效率。

智能体Anthropic安全/对齐教程/实践

11:16

IT之家（RSS）

精选80

AI 终端智能化分级国标出炉：L1~L4 等级，涉及手机、电脑、眼镜、电视、耳机等

工信部等部门联合发布《人工智能终端智能化分级》系列国家标准。该标准采用“2+N”架构，基础部分明确了AI终端的定义、分级体系与测试方法。智能化水平从低到高分为L1响应级、L2工具级、L3辅助级和L4协同级四个等级，其中L4级标准将在后续修订中完善。首批标准覆盖手机、电脑、电视、眼镜、汽车座舱、音箱、耳机共7个品类，小米、华为、荣耀等为主要起草单位，旨在为各类智能终端的智能化水平提供统一评价依据。

政策/监管端侧

推荐理由：中国首个AI终端智能化分级国标落地，L1到L4四个等级把手机、电脑、眼镜的智能水平钉在墙上，以后厂商再也不能模糊宣传，选型有了一把公用尺子。

10:22

HuggingFace Daily Papers（社区热门论文）

粒度轴：语言模型中社会角色的微观到宏观潜在方向

研究发现，大语言模型（LLMs）的内部表征确实编码了社会角色的粒度信息。研究者定义了一个基于对比的“粒度轴”，该轴在Qwen3-8B模型中与社会角色表征空间的主轴高度对齐，解释了52.6%的方差，表明粒度是组织社会角色的主导几何轴。通过对75个跨五个层级的社会角色进行测试，角色在轴上的投影随粒度增加而单调上升，且结果在不同模型和提示中保持稳定。因果实验证实，沿该轴进行激活引导能按预测方向改变模型响应的粒度。研究表明，社会角色粒度是模型行为中一个结构化、有序且可因果操控的潜在方向。

安全/对齐论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

研究构建了一个由外部测量驱动的封闭式自动研究循环，其核心是专家智能体。该循环产出包含提案、代码差异、实验和失败标签的可审计轨迹。关键发现是，谱系反馈能使智能体将评估结果转化为后续程序级的方案修改。在一次性设置后，人类未干预搜索过程。在总计1797次试验中，该循环使参数高尔夫的验证bpb降低0.81%，将NanoChat-D12 CORE提升38.7%，并将CIFAR-10 Airbench96的挂钟时间减少4.59%。循环能自主编写代码、提交实验、吸收反馈并组合已知技术，从而改进公开的初始方案。

智能体arXiv数据/训练论文/研究