AIHOT

AI HOT

5月8日

11:06

SemiAnalysis@SemiAnalysis_

@vllm_project 维护者在第0天优化DeepSeekv4性能并在周末合并了他们的初始模型支持PR。速度就是护城河

DeepSeek开源/仓库推理部署/工程

11:05

Greg Brockman@gdb

GPT-5.5-Cyber现已面向关键基础设施防护人员开放有限预览。这是一个非常强大的模型。

OpenAI安全/对齐模型发布

11:05

Eric@ericmitchellai

精选85

OpenAI在API中正式推出GPT-Realtime-2，这是其迄今为止最智能的语音模型，为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者，在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper，共同构成了一套面向下一代语音界面的全新音频能力组合。

OpenAI推理模型发布语音

关联讨论 12 条

推荐理由：OpenAI首次把GPT-5级推理塞进实时语音模型，音频原生智能不再是demo玩具，做语音agent的团队今天就可以在API里调用。

10:40

swyx 🌉@swyx

AI工程师大会的新加坡站活动门票已提前售罄，成为继迈阿密和巴黎后的第三个成功案例，证明了其合作伙伴计划的可行性。组织者透露，在大会开幕前将有来自@Gavriel_Cohen的重大消息公布。对于未购票者，会议期间将有一系列由参会者主办的周边活动可供参与。

其他行业动态

10:22

HuggingFace Daily Papers（社区热门论文）

粒度轴：语言模型中社会角色的微观到宏观潜在方向

研究发现，大语言模型（LLMs）的内部表征确实编码了社会角色的粒度信息。研究者定义了一个基于对比的“粒度轴”，该轴在Qwen3-8B模型中与社会角色表征空间的主轴高度对齐，解释了52.6%的方差，表明粒度是组织社会角色的主导几何轴。通过对75个跨五个层级的社会角色进行测试，角色在轴上的投影随粒度增加而单调上升，且结果在不同模型和提示中保持稳定。因果实验证实，沿该轴进行激活引导能按预测方向改变模型响应的粒度。研究表明，社会角色粒度是模型行为中一个结构化、有序且可因果操控的潜在方向。

安全/对齐论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

研究构建了一个由外部测量驱动的封闭式自动研究循环，其核心是专家智能体。该循环产出包含提案、代码差异、实验和失败标签的可审计轨迹。关键发现是，谱系反馈能使智能体将评估结果转化为后续程序级的方案修改。在一次性设置后，人类未干预搜索过程。在总计1797次试验中，该循环使参数高尔夫的验证bpb降低0.81%，将NanoChat-D12 CORE提升38.7%，并将CIFAR-10 Airbench96的挂钟时间减少4.59%。循环能自主编写代码、提交实验、吸收反馈并组合已知技术，从而改进公开的初始方案。

智能体arXiv数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

MARBLE：面向扩散模型强化学习的多维度奖励平衡框架

针对扩散模型基于人类偏好进行强化学习微调时多奖励难以协同优化的问题，研究团队提出MARBLE框架。该框架摒弃了传统加权求和方法，为每个奖励维护独立优势估计器，并通过求解二次规划问题，在梯度空间将各奖励策略梯度协调为单一更新方向，无需手动调整权重。结合摊销化计算与平滑技术，其单步计算成本降至接近单奖励基线水平。实验表明，MARBLE能同时提升所有奖励维度，显著改善最差对齐奖励的优化方向，且训练速度接近基线方法。

图像生成多模态安全/对齐论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

强化学习能教会大语言模型长程推理吗？逻辑表达力是关键

研究团队提出ScaleLogic合成逻辑推理框架，可独立控制推理深度与逻辑表达力。实验发现，强化学习训练计算量T与推理深度D之间遵循幂律关系（T ∝ D^γ），且缩放指数γ随逻辑表达力增强从1.04单调上升至2.60。在数学与通用推理基准上，表达力更强的训练带来更大的性能提升（最高+10.66分）和更高的计算效率迁移。该幂律关系在不同强化学习方法中均成立，基于课程的学习能显著提升扩展效率。研究表明，训练内容（而不仅是训练量）对下游任务迁移有决定性影响。

推理论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

精选74

AI协数学家：以智能体AI加速数学研究

AI协数学家是一个供数学家利用AI智能体进行开放式研究的工作平台。它针对数学工作流程的探索性与迭代性特点，提供从构思、文献检索、计算探索到定理证明的全方位支持。其异步、有状态的工作空间能管理不确定性、细化用户意图并追踪失败假设，模拟了人类协作模式。早期测试中，该系统已协助研究人员解决开放问题、识别新方向并发现被忽视的文献。在FrontierMath Tier 4等硬核问题求解基准测试中，AI协数学家取得了48%的最新最高分，展现了AI辅助数学发现的高度交互范式。

智能体推理论文/研究

关联讨论 1 条

推荐理由：AI数学家终于不是吹牛了，FrontierMath Tier 4干到48%，还帮真人解决开放问题。搞数学和AI的都应该点开看看。

10:22

HuggingFace Daily Papers（社区热门论文）

Skill1：通过强化学习实现技能增强智能体的协同进化

Skill1 是一个统一训练单一策略的框架，旨在协同进化技能选择、使用与提炼三项能力，以共同优化任务完成目标。该策略通过查询技能库、重排序候选技能、在选定技能条件下执行任务，并从轨迹中提炼新技能。所有学习仅源于单一的任务结果反馈信号：其低频趋势为技能选择提供反馈，高频变化则指导技能提炼。在 ALFWorld 和 WebShop 环境上的实验表明，Skill1 超越了现有基于技能的方法和强化学习基线。训练动态证实了三项能力的协同进化，消融实验显示移除任一反馈信号都会损害整体进化效果。

智能体数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

SkillOS：面向自进化智能体的技能管理学习方法

SkillOS提出一种经验驱动的强化学习框架，用于训练自进化智能体学习长期技能管理。该系统由一个固定的智能体执行器和一个可训练的技能管理器组成，后者依据累积经验更新外部技能库。通过设计复合奖励并在基于技能相关性的分组任务流上训练，该方法解决了从间接、延迟反馈中学习复杂管理策略的挑战。实验表明，在多轮智能体任务和单轮推理任务中，SkillOS在效果与效率上均优于无记忆及强记忆基线，且所学技能管理器能泛化至不同执行器与任务领域。分析显示，管理器能实现更精准的技能调用，技能库中的技能会逐渐演化为结构更丰富、编码高层元技能的Markdown文件。

智能体MCP/工具论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

连续潜在扩散语言模型

针对自回归范式在文本生成中的限制，研究团队提出Cola DLM，一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射，在连续潜在空间中用块因果DiT建模全局语义先验，再通过条件解码生成文本。其扩散过程执行潜在先验传输，而非词元级观测恢复，从而分离全局语义组织与局部文本实现，支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行，显示Cola DLM具有强大扩展性能，确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。

多模态推理论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

UniPool：面向混合专家模型的全局共享专家池

传统MoE模型每层设置独立专家，导致参数量随深度线性增长。研究发现深层路由功能冗余，因此提出UniPool架构，采用一个全局共享的专家池供所有层访问，取代分层独立设计。通过池级辅助损失平衡专家使用，并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明，UniPool持续提升了验证损失。关键的是，共享池设计将池大小确立为深度缩放超参数：仅使用基线41.6%-66.7%专家参数的缩减池变体，性能达到或超越了传统分层MoE，证明专家参数可实现次线性增长并保持更高效率。

推理数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

先思考后评分：视频奖励建模中的解耦推理与评分

为提升视频奖励模型的泛化能力与训练效率，研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式：首先由多模态大语言模型生成显式思维链推理，再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化：第一阶段结合随机掩码进行判别式冷启动，确保评分稳健性；第二阶段通过双目标强化学习，独立优化推理质量并校准奖励，使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

arXiv推理视频论文/研究

10:21

Berryxia.AI@berryxia

Grok 支持Apple CarPlay，可惜国内的特斯拉都已经要介入的是豆包了哈哈哈

xAI产品更新语音

10:21

Berryxia.AI@berryxia

我想用这个做个Voice Agent 能行吗？直接给我进行问答和做一些定向的检测和人物啊！有没有玩过的朋友？

智能体其他端侧语音

10:16

IT之家（RSS）

Anthropic 成立 AI 研究院，聚焦四大方向开展 AI 社会影响研究

美国AI公司Anthropic宣布成立AI研究院，旨在研究人工智能对社会的影响。其研究议程主要聚焦于经济扩散、威胁与心理弹性、现实环境AI系统以及AI驱动研发四大方向。研究院将从实验室前沿视角发布成果，以协助外部组织、政府和公众做出更明智的AI开发决策。同时，其研究发现也将直接影响Anthropic自身的决策，可能促使公司分享原本不公开的数据或调整技术发布策略。此外，Anthropic还开放了为期四个月的TAI研究员申请，邀请业界人士在团队指导下开展相关课题研究。

Anthropic安全/对齐政策/监管行业动态

10:16

IT之家（RSS）

OpenAI 诉讼案牵出"72 小时 CEO"：当事人埃米特 · 希尔自嘲被网友玩梗，马斯克回应

马斯克起诉OpenAI的诉讼披露，2023年奥尔特曼被罢免时，时任CTO穆拉蒂在短信中称接任的临时CEO埃米特·希尔为“Twitch的无名小卒”。该短信在X平台引发热议与玩梗。希尔将个人背景图换成短信截图自嘲，并回应“能被当梗是荣幸”，获马斯克表情符号点赞。尽管被如此称呼，希尔实为硅谷资深人物，曾领导Twitch以9.7亿美元出售给亚马逊，现任AI创业公司Softmax的CEO。

OpenAI行业动态

10:16

IT之家（RSS）

商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型，Token Plan 限时免费

商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构，能直接理解网页、文档和图表，提升复杂任务处理效率。它取消了视觉转文本中间层，以更小参数量实现能力跨越，在权威测试中取得多项同级别SOTA，并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时，商汤推出限时免费的SenseNova Token Plan，为开发者提供首月无门槛调用额度，并将其全线办公技能SenseNova-Skills在GitHub开源。

多模态开源生态模型发布

10:16

IT之家（RSS）

谷歌 Pixel 12 系列手机自研芯片 Tensor G7 曝光：代号 Lajolla，改进版 2nm 工艺

消息称谷歌计划在2027年推出的Pixel 12系列手机上搭载自研Tensor G7芯片，内部代号为“Lajolla”。该芯片预计采用台积电改进版的2nm工艺制造，是其前代Tensor G6（首款采用台积电2nm工艺）的工艺升级版。谷歌自研芯片路线持续，不采用第三方旗舰芯片，其设计重点并非追求极限性能跑分，而是侧重于提升AI功能与用户体验。

Google端侧行业动态

10:16

IT之家（RSS）

Win11 学院：如何阻止谷歌 Chrome 浏览器 147 静默下载 4GB 端侧 AI 模型

谷歌 Chrome 浏览器 147 版本为支持端侧 AI 模型 Gemini Nano，会在用户不知情或未同意的情况下，静默下载并安装一个约 4GB 的 weights.bin 文件，且删除后会自动重新下载。科技媒体 NeoWin 指出，用户可通过修改 Windows 11 注册表来阻止这一行为。具体操作为：在注册表编辑器中定位至 HKLM\SOFTWARE\Policies\Google\Chrome\，将“GenAILocalFoundationalModelSettings”值设为 1。类似方法也适用于阻止 Microsoft Edge 浏览器下载端侧 AI 模型，只需在其对应路径下进行相同设置。

Google教程/实践端侧

10:09

meng shao@shao__meng

精选71

Codex现可直接在Chrome中运行 Codex Chrome插件 + Chrome Codex扩展程序 https：//developers.openai.com/codex/app/chrome-extension

智能体OpenAI产品更新

关联讨论 10 条

推荐理由：Codex 终于能在 Chrome 后台悄悄干活了，不用再占着整个浏览器，对用 Codex 的开发者是实用更新，刚好可以试试。

10:01

Alibaba Cloud@alibaba_cloud

5月26日Qwen大会2026，亲历向智能体原生基础设施的转型。我们将深入探讨大规模自主规划、协调与推理。超越代币，迈向实际生产力。见证AI如何重塑您的增长。 https：//click.qwencloud.com/m/20000000142/

智能体推理行业动态

09:44

小互@xiaohu

精选73

OpenAI发布Codex for Chrome扩展，可操作已登录网站

OpenAI推出Chrome浏览器扩展“Codex for Chrome”，该工具能利用用户当前的浏览器登录状态，直接操作需账号访问的后台、CRM等受保护页面执行任务，无需额外提供密码。扩展在独立标签组中运行，不影响用户当前浏览，并在执行提交、下载等敏感操作前请求用户确认。典型应用包括跨网站查询信息、预填表单、读取仪表板并生成摘要等。

智能体MCP/工具OpenAI产品更新

关联讨论 10 条

推荐理由：Codex这个扩展把AI从‘给你代码’推进到‘替你操作网页’，关键是用你已登录的Chrome，内部系统、后台都能直接干，Agent落地的最后一公里被踩平了一大截。

09:43

Tibo@thsottiaux

精选83

我们正在众目睽睽之下构建通用人工智能【引用 @OpenAI】：在API中推出GPT-Realtime-2：这是我们迄今为止最智能的语音模型，为语音代理带来GPT-5级别的推理能力。语音代理现已成为实时协作者，能够在对话展开时倾听、推理并解决复杂问题。现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

智能体OpenAI推理模型发布

关联讨论 12 条

推荐理由：GPT-5 级推理放到实时语音里，语音代理从听懂话到真正协作的分水岭，做语音产品的都该立刻试一下。

09:40

Sam Altman@sama

我们希望能帮助企业加强安全防护，并认为尽快开展这项工作至关重要

OpenAI安全/对齐模型发布

09:39

meng shao@shao__meng

Claude Code 开发者谈AI时代技术写作的核心：深耕经验，善用工具

Claude Code开发者Thariq认为，高质量技术文章的基础在于深入具体的工作经验，而非写作技巧。他提出“先深耕，后叙事”的两步法：长期研究积累独特细节，再将经验转化为对读者有用的故事。有效方法包括注重长期积累、分享经验而非单纯描述项目、披露失败尝试的价值、使用简洁语言及提供真正有价值的实施细节。对于AI写作，他肯定其在研究、图表生成等方面的辅助作用，但强调人的叙事判断不可替代——AI能整理信息，却难以决定“读者此刻最需要理解什么”，这使得在AI辅助下人的判断反而更加关键。

Anthropic大佬观点教程/实践编码

09:22

Marc Andreessen 🇺🇸@pmarca

密切关注事态发展。

OpenAI行业动态

09:22

Marc Andreessen 🇺🇸@pmarca

推文指出，AI末日论者发布的民调常采用诱导性手法。他们先提出多个极端假设性问题，例如"AI可能导致大规模失业并杀害你的家人"，引导受访者否定，最后夹杂个别看似合理的问题。这种设计使最终公布的"合理"结果成为其预设立场的"证据"，用以支持加强AI监管的论点。这些民调多由少数人资助的机构发布，最终被《时代》等媒体引用，服务于制造恐慌或推动监管捕获的议程。

大佬观点安全/对齐

09:22

HuggingFace Daily Papers（社区热门论文）

XL-SafetyBench：一个基于国家的跨文化大语言模型安全与文化敏感性基准

针对现有大语言模型安全基准的英语中心主义局限，研究团队发布了XL-SafetyBench。该基准包含10个国家-语言对的5500个测试用例，设有基于国家的对抗性“越狱基准”和嵌入本地敏感性的“文化基准”。通过引入中立安全率与文化敏感率等补充指标，能更好区分原则性拒绝与理解失败。对37个模型的评估发现，前沿模型的越狱鲁棒性与文化意识不耦合，而本地模型的安全表现更多源于生成失败而非真正对齐。该工作为多语言时代的模型安全提供了细致的跨文化评估工具。

安全/对齐论文/研究评测/基准

09:21

Berryxia.AI@berryxia

推荐XCrawl与AI工具组合提升工作效率

用户推荐结合XCrawl和AI工具处理日常任务，每天仅用5分钟查看邮件，XCrawl在24小时内快速抓取网站信息执行任务。该组合显著提升效率，尤其适用于制作调研报告，能节省类似GPT服务的Credit消耗，免费额度可用较久，并对服务商盈利模式表示好奇。

MCP/工具教程/实践

09:16

IT之家（RSS）

AMD 时隔四年重推 PCIe AIC 形态 Instinct 显卡：MI350P 规模砍半

AMD近日发布了四年来首款采用PCIe AIC形态的Instinct MI350P加速卡，主要面向现有数据中心基础设施升级。该卡采用新封装，规格相较MI350X大幅缩减：XCD芯片数量减半至4个，HBM3E内存降至4堆栈144GB，性能下降约50%，晶体管数量减少约60%。产品采用双槽全高全长设计，最大功耗600W，支持无风扇被动散热。

产品更新部署/工程

09:16

IT之家（RSS）

瑞莎预热高通平台飞牛 NAS：6 盘位全闪高性能 / 4 盘位主流双选择

瑞莎在2026高通AI开发者日前夕，预热了两款基于高通硬件平台的飞牛fnOS NAS新品。其中，DragonStation定位高性能全闪存产品，搭载具备“超大核”CPU的Arm SoC，提供6个M.2 SSD盘位，支持10Gb网络，并能通过内置加速卡本地运行120B参数的AI模型。另一款DragonBay面向主流用户，提供4个存储位，其内部结构设计留有后续扩展空间。两款新品将在本月末于深圳举行的活动中正式亮相。

产品更新推理端侧

09:16

IT之家（RSS）

精选70

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型，旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中，GPT-Realtime-2具备GPT-5级推理能力，可在对话中进行推理、调用工具并处理打断，音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言，每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录，每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI推理模型发布语音

关联讨论 12 条

推荐理由：GPT-Realtime-2 把 GPT-5 级的推理塞进了实时语音里，不是简单的语音转文字，是能打断、能纠错、能执行多步任务的真·语音助手能力。做语音产品的人现在就该去读接口文档。

09:16

IT之家（RSS）

消息称软银与英伟达、富士康磋商，拟开发"日本制造"AI 服务器

软银正与英伟达和富士康磋商，评估在日本本土制造AI服务器的可行性。该计划首先通过组装外购组件建立生产系统，目标是在2029年前逐步掌握完整的AI服务器制造流程。软银将打造配备高级GPU的高性能服务器，此蓝图已纳入公司中期经营计划，预计最快将于下周正式公布。软银CEO孙正义已向OpenAI投资超过300亿美元，显示出其在大型语言模型竞争中的全力投入。

行业动态部署/工程

09:16

IT之家（RSS）

昆仑芯启动科创板 IPO 上市辅导，百度持股 57.67%

昆仑芯（北京）科技股份有限公司已于2026年5月7日启动科创板上市辅导，辅导机构为中金公司。该公司前身为百度智能芯片及架构部，百度目前持股57.67%为控股股东。此前，昆仑芯已于2026年1月向港交所提交上市申请。中银国际报告评估其估值应处于300亿至1000亿港元区间的头部，对百度估值贡献约500亿港元。受分拆消息影响，百度港股曾单日上涨约9.35%。昆仑芯专注于AI芯片研发，产品主要面向数据中心与云计算场景。

行业动态

09:16

IT之家（RSS）

候任 CEO 特努斯定调苹果 AI 战略：不追求营销噱头，专注用户体验

苹果候任CEO约翰·特努斯明确公司AI战略核心：不追求技术营销噱头，专注以技术提升实际用户体验。在iOS 27预计带来重大AI更新的背景下，特努斯强调苹果不会单纯“发布技术”，而是确保AI功能切实改善产品体验，用户无需知晓功能是否由AI驱动，只需感受产品是否好用。这一立场直指当前科技行业为追赶浪潮而匆忙发布未经验证技术的痛点。

行业动态

09:16

IT之家（RSS）

向 AI 优先运营模式转型，Cloudflare 裁员超 1100 人

美国科技企业Cloudflare宣布裁员20%，涉及超过1100名员工，以推动公司向AI优先运营模式转型。公司CEO表示，此举并非仅为降本增效，而是为适应智能体时代重构公司架构。数据显示，Cloudflare的AI使用量在三个月内激增超过600%，公司内部日常运营已广泛依赖AI智能体对话。截至去年底，公司全职员工数为5156人，预计此次裁员将产生1.4亿至1.5亿美元的相关费用。

行业动态部署/工程

09:10

Nathan Lambert@natolambert

当我为AI领域的事物动情时，最终往往会付诸文字。目前看来效果不错。

其他开源生态

09:05

ClaudeDevs@ClaudeDevs

Code with Claude旧金山站活动圆满结束！Clawd度过了愉快的时光，希望您也一样。感谢所有到场和在线参与的朋友们🧡

Anthropic行业动态