5月8日
11:22
歸藏(guizang.ai)@op7418
精选73
Codex 越来越猛了,昨天更新增加了内置的谷歌浏览器插件,可以直接控制你的谷歌浏览器执行任务。

Codex最新更新引入了内置谷歌浏览器插件,能直接控制基于Chromium的浏览器(如Chrome或Dia)执行任务。该插件支持后台跨浏览器页面并行工作,不干扰正常浏览;用户可启动多个SubAgent同时操作多个网页,实现高效并发。根据OpenAI官方信息,Codex现直接在macOS和Windows的Chrome中运行,能更好地与应用和网站交互,并在后台跨标签页并行处理任务,不接管浏览器。安装方法简单:在Codex插件库找到Chrome插件,点击添加并安装即可。安装后,用户可无缝下达指令,享受流畅的多任务操作体验。

智能体OpenAI产品更新编码
关联讨论 9X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)IT之家(RSS)X:Vista (@vista8)
推荐理由:Codex 这次更新的精髓是并行控制浏览器 Tab,不抢鼠标不弹窗,后台就能帮你填表、搜信息,自动化体验又拉高了一截。
11:22
HuggingFace Daily Papers(社区热门论文)
53
MiA-Signature:面向长上下文理解的全局激活近似方法

研究提出“心智景观激活签名”概念,通过子模优化选取高层概念以覆盖被激活的上下文空间,并可借助工作记忆进行轻量迭代更新。该压缩表示能近似全局激活状态对下游处理的影响,同时保持计算可行性。将MiA-Signature集成至RAG与智能体系统中,在多项长上下文理解任务上实现了持续的性能提升。

智能体检索增强论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
53
无意义文本有助于推理:提示空间扰动拓宽探索范围

针对大型语言模型强化学习中的“零优势问题”,本研究提出了LoPE训练框架。该方法通过在原始提示前随机添加由Lorem Ipsum等低困惑度伪拉丁文本构成的无关序列,对提示空间进行扰动,从而为困难问题开辟新的推理路径。在1.7B至7B参数规模的模型上的实验表明,该方法显著优于使用原始提示的重采样策略。分析进一步证实,其他基于拉丁语的随机序列同样可作为有效扰动源。LoPE为拓宽LLM强化学习的探索范围提供了一个简单而有效的基线方法。

推理数据/训练论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
68
SwiftI2V:通过条件分段生成实现高效高分辨率图像到视频生成

SwiftI2V是一个针对高分辨率图像到视频生成的高效框架,旨在解决2K分辨率下的效率与保真度难题。它采用两阶段设计:首先生成低分辨率运动参考以降低计算负担,随后进行强图像条件的2K合成以恢复输入细节。其核心创新是条件分段生成技术,通过分段合成控制每步令牌预算,并利用双向上下文交互提升片段连贯性与输入保真度。在VBench-I2V基准测试中,该框架在2K分辨率下性能与端到端基线相当,同时将总GPU时间大幅减少202倍,使得在单张数据中心或消费级GPU上实现实用的2K图像到视频生成成为可能。

图像生成视频论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
58
A^2TGPO:具有自适应轮次裁剪的智能体轮次组策略优化

针对智能体大语言模型强化学习中稀疏结果奖励难以评估单轮贡献的问题,A^2TGPO方法优化了信息增益这一内在过程信号的利用。其核心改进包括:采用轮次组归一化,使同深度轮次间可比;通过方差重缩放的折扣累积,保持不同位置优势幅度的可比性;引入自适应轮次裁剪,根据各轮次信息增益动态调整策略更新范围。这些设计旨在更精确地进行过程信用分配,无需依赖外部奖励模型。

智能体MCP/工具推理论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
60
连续时间分布匹配用于少步扩散蒸馏

现有分布匹配蒸馏方法依赖离散时间锚点进行监督,易导致视觉伪影和平滑。本研究提出连续时间分布匹配方法,首次将该框架迁移至连续时间优化。其核心是通过动态连续时间表替代固定离散表,使匹配能在采样轨迹任意点执行;并引入连续时间对齐目标,利用学生速度场外推隐变量进行主动离轨匹配,以提升泛化能力并保留细节。在SD3-Medium等架构上的实验表明,该方法无需复杂辅助模块即可在少步生成中实现极具竞争力的视觉保真度。

图像生成论文/研究
11:16
IT之家(RSS)
48
电动车室内充电风险智能识别系统上线:零硬件改造,依托现有电表

在市场监管总局指导下,云南电网成功研发“电动车室内充电风险智能识别系统”。该系统无需硬件改造,依托现有智能电表的15分钟负荷曲线数据,通过人工智能算法识别电动自行车充电的独特“电化学指纹”,实现对高层建筑内违规入户充电行为的精准识别与预警。系统构建了大数据驱动的“技术+管理”协同治理模式,可将预警信息推送至电网、物业、社区等多方,形成闭环管理。目前已在50余个居民区试运行,识别准确率达88%。

产品更新部署/工程
11:16
IT之家(RSS)
25
同德:已在着手研发下一代(英伟达)显卡产品

英伟达AIC合作伙伴同德发布公告,确认旗下影驰(GALAX)品牌的海外运营将继续进行,并将GALAX、KFA2和HOF品牌的管理体系直接整合至同德集团总部。公告强调,公司已为当前一代GPU做好准备,并已着手研发即将问世的下一代英伟达显卡产品。据现有爆料,英伟达下一代游戏显卡(预计为GeForce RTX 60系列)可能基于GR20X系列GPU核心,发布时间窗口预计在2027年下半年或2028年初。

行业动态
11:16
IT之家(RSS)
53
揪出火狐 Firefox 浏览器 271 个漏洞,Mozilla 回应"AI 抓虫"质疑

Mozilla 工程师披露,其使用 Anthropic 的 Claude Mythos AI 模型在 Firefox 150 版本中共发现 271 个安全漏洞,其中 180 个为高危级别。为回应外界对 AI 有效性的质疑,团队公开了 12 份完整漏洞报告。他们通过自研的 Agent Harness 智能体套件引导 AI 分析代码并自主构造测试用例,同时引入第二个大模型进行结果打分以严格过滤误报,最终实现了极低的误报率,显著提升了漏洞排查效率。

智能体Anthropic安全/对齐教程/实践
11:16
IT之家(RSS)
精选80
AI 终端智能化分级国标出炉:L1~L4 等级,涉及手机、电脑、眼镜、电视、耳机等

工信部等部门联合发布《人工智能终端智能化分级》系列国家标准。该标准采用“2+N”架构,基础部分明确了AI终端的定义、分级体系与测试方法。智能化水平从低到高分为L1响应级、L2工具级、L3辅助级和L4协同级四个等级,其中L4级标准将在后续修订中完善。首批标准覆盖手机、电脑、电视、眼镜、汽车座舱、音箱、耳机共7个品类,小米、华为、荣耀等为主要起草单位,旨在为各类智能终端的智能化水平提供统一评价依据。

政策/监管端侧

推荐理由:中国首个AI终端智能化分级国标落地,L1到L4四个等级把手机、电脑、眼镜的智能水平钉在墙上,以后厂商再也不能模糊宣传,选型有了一把公用尺子。
11:05
Eric@ericmitchellai
精选85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。
OpenAI推理模型发布语音
关联讨论 13OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)
推荐理由:OpenAI首次把GPT-5级推理塞进实时语音模型,音频原生智能不再是demo玩具,做语音agent的团队今天就可以在API里调用。
10:22
HuggingFace Daily Papers(社区热门论文)
56
粒度轴:语言模型中社会角色的微观到宏观潜在方向

研究发现,大语言模型(LLMs)的内部表征确实编码了社会角色的粒度信息。研究者定义了一个基于对比的“粒度轴”,该轴在Qwen3-8B模型中与社会角色表征空间的主轴高度对齐,解释了52.6%的方差,表明粒度是组织社会角色的主导几何轴。通过对75个跨五个层级的社会角色进行测试,角色在轴上的投影随粒度增加而单调上升,且结果在不同模型和提示中保持稳定。因果实验证实,沿该轴进行激活引导能按预测方向改变模型响应的粒度。研究表明,社会角色粒度是模型行为中一个结构化、有序且可因果操控的潜在方向。

安全/对齐论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
61
专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

研究构建了一个由外部测量驱动的封闭式自动研究循环,其核心是专家智能体。该循环产出包含提案、代码差异、实验和失败标签的可审计轨迹。关键发现是,谱系反馈能使智能体将评估结果转化为后续程序级的方案修改。在一次性设置后,人类未干预搜索过程。在总计1797次试验中,该循环使参数高尔夫的验证bpb降低0.81%,将NanoChat-D12 CORE提升38.7%,并将CIFAR-10 Airbench96的挂钟时间减少4.59%。循环能自主编写代码、提交实验、吸收反馈并组合已知技术,从而改进公开的初始方案。

智能体arXiv数据/训练论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
61
MARBLE:面向扩散模型强化学习的多维度奖励平衡框架

针对扩散模型基于人类偏好进行强化学习微调时多奖励难以协同优化的问题,研究团队提出MARBLE框架。该框架摒弃了传统加权求和方法,为每个奖励维护独立优势估计器,并通过求解二次规划问题,在梯度空间将各奖励策略梯度协调为单一更新方向,无需手动调整权重。结合摊销化计算与平滑技术,其单步计算成本降至接近单奖励基线水平。实验表明,MARBLE能同时提升所有奖励维度,显著改善最差对齐奖励的优化方向,且训练速度接近基线方法。

图像生成多模态安全/对齐论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
69
强化学习能教会大语言模型长程推理吗?逻辑表达力是关键

研究团队提出ScaleLogic合成逻辑推理框架,可独立控制推理深度与逻辑表达力。实验发现,强化学习训练计算量T与推理深度D之间遵循幂律关系(T ∝ D^γ),且缩放指数γ随逻辑表达力增强从1.04单调上升至2.60。在数学与通用推理基准上,表达力更强的训练带来更大的性能提升(最高+10.66分)和更高的计算效率迁移。该幂律关系在不同强化学习方法中均成立,基于课程的学习能显著提升扩展效率。研究表明,训练内容(而不仅是训练量)对下游任务迁移有决定性影响。

推理论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
精选74
AI协数学家:以智能体AI加速数学研究

AI协数学家是一个供数学家利用AI智能体进行开放式研究的工作平台。它针对数学工作流程的探索性与迭代性特点,提供从构思、文献检索、计算探索到定理证明的全方位支持。其异步、有状态的工作空间能管理不确定性、细化用户意图并追踪失败假设,模拟了人类协作模式。早期测试中,该系统已协助研究人员解决开放问题、识别新方向并发现被忽视的文献。在FrontierMath Tier 4等硬核问题求解基准测试中,AI协数学家取得了48%的最新最高分,展现了AI辅助数学发现的高度交互范式。

智能体推理论文/研究

推荐理由:AI数学家终于不是吹牛了,FrontierMath Tier 4干到48%,还帮真人解决开放问题。搞数学和AI的都应该点开看看。
10:22
HuggingFace Daily Papers(社区热门论文)
52
Skill1:通过强化学习实现技能增强智能体的协同进化

Skill1 是一个统一训练单一策略的框架,旨在协同进化技能选择、使用与提炼三项能力,以共同优化任务完成目标。该策略通过查询技能库、重排序候选技能、在选定技能条件下执行任务,并从轨迹中提炼新技能。所有学习仅源于单一的任务结果反馈信号:其低频趋势为技能选择提供反馈,高频变化则指导技能提炼。在 ALFWorld 和 WebShop 环境上的实验表明,Skill1 超越了现有基于技能的方法和强化学习基线。训练动态证实了三项能力的协同进化,消融实验显示移除任一反馈信号都会损害整体进化效果。

智能体数据/训练论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
60
SkillOS:面向自进化智能体的技能管理学习方法

SkillOS提出一种经验驱动的强化学习框架,用于训练自进化智能体学习长期技能管理。该系统由一个固定的智能体执行器和一个可训练的技能管理器组成,后者依据累积经验更新外部技能库。通过设计复合奖励并在基于技能相关性的分组任务流上训练,该方法解决了从间接、延迟反馈中学习复杂管理策略的挑战。实验表明,在多轮智能体任务和单轮推理任务中,SkillOS在效果与效率上均优于无记忆及强记忆基线,且所学技能管理器能泛化至不同执行器与任务领域。分析显示,管理器能实现更精准的技能调用,技能库中的技能会逐渐演化为结构更丰富、编码高层元技能的Markdown文件。

智能体MCP/工具论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
68
连续潜在扩散语言模型

针对自回归范式在文本生成中的限制,研究团队提出Cola DLM,一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射,在连续潜在空间中用块因果DiT建模全局语义先验,再通过条件解码生成文本。其扩散过程执行潜在先验传输,而非词元级观测恢复,从而分离全局语义组织与局部文本实现,支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行,显示Cola DLM具有强大扩展性能,确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。

多模态推理论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
64
UniPool:面向混合专家模型的全局共享专家池

传统MoE模型每层设置独立专家,导致参数量随深度线性增长。研究发现深层路由功能冗余,因此提出UniPool架构,采用一个全局共享的专家池供所有层访问,取代分层独立设计。通过池级辅助损失平衡专家使用,并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明,UniPool持续提升了验证损失。关键的是,共享池设计将池大小确立为深度缩放超参数:仅使用基线41.6%-66.7%专家参数的缩减池变体,性能达到或超越了传统分层MoE,证明专家参数可实现次线性增长并保持更高效率。

推理数据/训练论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
67
先思考后评分:视频奖励建模中的解耦推理与评分

为提升视频奖励模型的泛化能力与训练效率,研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式:首先由多模态大语言模型生成显式思维链推理,再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化:第一阶段结合随机掩码进行判别式冷启动,确保评分稳健性;第二阶段通过双目标强化学习,独立优化推理质量并校准奖励,使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

arXiv推理视频论文/研究
10:16
IT之家(RSS)
65
Anthropic 成立 AI 研究院,聚焦四大方向开展 AI 社会影响研究

美国AI公司Anthropic宣布成立AI研究院,旨在研究人工智能对社会的影响。其研究议程主要聚焦于经济扩散、威胁与心理弹性、现实环境AI系统以及AI驱动研发四大方向。研究院将从实验室前沿视角发布成果,以协助外部组织、政府和公众做出更明智的AI开发决策。同时,其研究发现也将直接影响Anthropic自身的决策,可能促使公司分享原本不公开的数据或调整技术发布策略。此外,Anthropic还开放了为期四个月的TAI研究员申请,邀请业界人士在团队指导下开展相关课题研究。

Anthropic安全/对齐政策/监管行业动态
10:16
IT之家(RSS)
42
OpenAI 诉讼案牵出"72 小时 CEO":当事人埃米特 · 希尔自嘲被网友玩梗,马斯克回应

马斯克起诉OpenAI的诉讼披露,2023年奥尔特曼被罢免时,时任CTO穆拉蒂在短信中称接任的临时CEO埃米特·希尔为“Twitch的无名小卒”。该短信在X平台引发热议与玩梗。希尔将个人背景图换成短信截图自嘲,并回应“能被当梗是荣幸”,获马斯克表情符号点赞。尽管被如此称呼,希尔实为硅谷资深人物,曾领导Twitch以9.7亿美元出售给亚马逊,现任AI创业公司Softmax的CEO。

OpenAI行业动态
10:16
IT之家(RSS)
57
商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型,Token Plan 限时免费

商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构,能直接理解网页、文档和图表,提升复杂任务处理效率。它取消了视觉转文本中间层,以更小参数量实现能力跨越,在权威测试中取得多项同级别SOTA,并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时,商汤推出限时免费的SenseNova Token Plan,为开发者提供首月无门槛调用额度,并将其全线办公技能SenseNova-Skills在GitHub开源。

多模态开源生态模型发布
10:16
IT之家(RSS)
45
谷歌 Pixel 12 系列手机自研芯片 Tensor G7 曝光:代号 Lajolla,改进版 2nm 工艺

消息称谷歌计划在2027年推出的Pixel 12系列手机上搭载自研Tensor G7芯片,内部代号为“Lajolla”。该芯片预计采用台积电改进版的2nm工艺制造,是其前代Tensor G6(首款采用台积电2nm工艺)的工艺升级版。谷歌自研芯片路线持续,不采用第三方旗舰芯片,其设计重点并非追求极限性能跑分,而是侧重于提升AI功能与用户体验。

Google端侧行业动态
10:16
IT之家(RSS)
67
Win11 学院:如何阻止谷歌 Chrome 浏览器 147 静默下载 4GB 端侧 AI 模型

谷歌 Chrome 浏览器 147 版本为支持端侧 AI 模型 Gemini Nano,会在用户不知情或未同意的情况下,静默下载并安装一个约 4GB 的 weights.bin 文件,且删除后会自动重新下载。科技媒体 NeoWin 指出,用户可通过修改 Windows 11 注册表来阻止这一行为。具体操作为:在注册表编辑器中定位至 HKLM\SOFTWARE\Policies\Google\Chrome\,将“GenAILocalFoundationalModelSettings”值设为 1。类似方法也适用于阻止 Microsoft Edge 浏览器下载端侧 AI 模型,只需在其对应路径下进行相同设置。

Google教程/实践端侧
10:09
meng shao@shao__meng
精选71
Codex现可直接在Chrome中运行 Codex Chrome插件 + Chrome Codex扩展程序 https://developers.openai.com/codex/app/chrome-extension
智能体OpenAI产品更新
关联讨论 9X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)IT之家(RSS)X:Vista (@vista8)
推荐理由:Codex 终于能在 Chrome 后台悄悄干活了,不用再占着整个浏览器,对用 Codex 的开发者是实用更新,刚好可以试试。
09:44
小互@xiaohu
精选73
OpenAI发布Codex for Chrome扩展,可操作已登录网站

OpenAI推出Chrome浏览器扩展“Codex for Chrome”,该工具能利用用户当前的浏览器登录状态,直接操作需账号访问的后台、CRM等受保护页面执行任务,无需额外提供密码。扩展在独立标签组中运行,不影响用户当前浏览,并在执行提交、下载等敏感操作前请求用户确认。典型应用包括跨网站查询信息、预填表单、读取仪表板并生成摘要等。

智能体MCP/工具OpenAI产品更新
关联讨论 9X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)IT之家(RSS)X:Vista (@vista8)
推荐理由:Codex这个扩展把AI从‘给你代码’推进到‘替你操作网页’,关键是用你已登录的Chrome,内部系统、后台都能直接干,Agent落地的最后一公里被踩平了一大截。
09:43
Tibo@thsottiaux
精选83
我们正在众目睽睽之下构建通用人工智能 【引用 @OpenAI】:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。
智能体OpenAI推理模型发布
关联讨论 13OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)
推荐理由:GPT-5 级推理放到实时语音里,语音代理从听懂话到真正协作的分水岭,做语音产品的都该立刻试一下。
09:39
meng shao@shao__meng
64
Claude Code 开发者谈AI时代技术写作的核心:深耕经验,善用工具

Claude Code开发者Thariq认为,高质量技术文章的基础在于深入具体的工作经验,而非写作技巧。他提出“先深耕,后叙事”的两步法:长期研究积累独特细节,再将经验转化为对读者有用的故事。有效方法包括注重长期积累、分享经验而非单纯描述项目、披露失败尝试的价值、使用简洁语言及提供真正有价值的实施细节。对于AI写作,他肯定其在研究、图表生成等方面的辅助作用,但强调人的叙事判断不可替代——AI能整理信息,却难以决定“读者此刻最需要理解什么”,这使得在AI辅助下人的判断反而更加关键。

Anthropic大佬观点教程/实践编码
09:22