5月6日
10:04
meng shao@shao__meng
精选77
OpenAI Codex 官方迁移指南:一键迁移 Agent 资产

OpenAI 为 Codex 发布官方迁移方案,支持从其他 AI Coding Agents 一键导入指令、配置、技能、近30天会话等资产。迁移采用“自动迁移+残留兜底”设计:通过用户级和项目级双层扫描,执行检测、迁移、回检的四步循环;自动处理可识别配置后,对剩余部分使用 `migrate-to-codex` skill 手动处理。需注意 Slash commands 被归入 Skills 体系,且会话历史仅限30天。迁移完成后,必须人工复核工具权限、MCP服务器认证、Hooks行为差异等五类内容,因平台间语义或实现差异可能影响功能。

智能体MCP/工具OpenAI教程/实践

推荐理由:OpenAI 这次迁移工具不玩虚的,自动扫描两层级配置还能手动兜底,不过 slash commands 被吞进 Skills 的设计值得注意,切换前先把这条看清楚。
10:04
meng shao@shao__meng
64
2026 年 Subagent 的四种管理模式

Philipp Schmid 将主代理管理子代理的模式按控制力分为四档。模式一为内联工具调用,子代理如同函数,适用于独立任务。模式二为派发后收集,主代理可并行处理其他工作。模式三为代理池,子代理持久化并通过消息通信,支持多步协作。模式四为团队模式,代理间直接对话,主代理仅负责初始组建。核心建议是从简单模式开始,逐级升级需谨慎,因为每升一级对模型能力要求陡增,且许多任务用模式一即可解决。

智能体MCP/工具现象/趋势
09:34
karminski-牙医@karminski3
精选73
Google发布Gemma 4草稿专用模型,推理速度提升三倍

Google发布了Gemma 4系列模型的专用草稿模型,用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍,仅增加1G显存开销;Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB,专门优化后接受率高,相比之前使用非专用草稿模型(如gemma-4-E2B-it-UD-Q4_K_XL)提速更明显。作者呼吁Qwen尽快推出类似优化模型(如Qwen3.6-27B-assistant),以应对高性能需求。

Google推理模型发布
关联讨论 2X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)
推荐理由:Google 给 Gemma 4 发了个「加速挂」,专门优化推测解码的草稿模型提速 3 倍,显存只多花 1GB,跑本地模型的人应该马上试试。Qwen 再不跟就输了。
09:34
meng shao@shao__meng
精选77
全球首个基于SSA架构的模型SubQ实现1200万token上下文窗口,效率大幅领先

前沿模型SubQ基于创新的Subquadratic Sparse Attention架构,实现了1200万token的实用上下文窗口。其核心技术SSA通过内容依赖的选择机制,让每个查询仅动态计算与相关键的注意力,使计算和内存成本随序列长度线性增长,而非传统Transformer的二次方增长。实测在100万token时比FlashAttention-2快52.2倍,成本低于Opus的5%。该模型针对需要一次性处理完整代码库、长文档等企业真实长上下文场景优化,旨在弥合“名义上下文”与“功能上下文”窗口的差距。

数据/训练模型发布编码
关联讨论 1X:Rohan Paul (@rohanpaul_ai)
推荐理由:这是第一个真正把子二次方注意力用到前沿模型上的突破,12M 上下文窗口不再只是参数,而是能用起来的真窗口,长上下文场景的成本逻辑要重写了。
09:31
宝玉@dotey
精选70
GPT Image 2 Prompt生成蜡笔小新一家合影的提示词描述

用户利用GPT Image 2 Prompt功能,描述生成一张半写实半动画照片,其中用户与动画角色野原新之助(小新)及其全家合影。照片要求小新、父亲广志、母亲美冴、妹妹向日葵和宠物小白保持原始动画形象,并自然融入真实环境。每个角色被赋予特定性格:小新滑稽淘气,广志温和朴实,美冴表情丰富略带严厉,小葵天真可爱,小白软萌伶俐。同时,引用推文展示了类似提示词,用于生成高度写实、角色略带风格化且与环境自然融合的照片,强调提示词在AI图像生成中的应用。

OpenAI图像生成教程/实践

推荐理由:宝玉这个 prompt 把 GPT Image 2 变成动漫合影神器,效果惊艳,做创意内容的人可以直接抄作业。
09:29
09:17
Berryxia.AI@berryxia
67
Anthropic推出金融服务Claude Agent模板,AI直接接管核心金融流程

Anthropic正式发布面向金融服务的Claude Agent模板,将AI在金融领域的角色从“辅助”升级为“直接执行”。该模板针对融资演示、估值审查、月末结账等高频率、耗时的核心流程,提供开箱即用的解决方案。它集成了完整的连接器、技能和子代理,可直接适配公司内部标准,并支持在Claude协作与开发环境中安装插件,或通过官方指南一键部署为生产级托管Agent。此举意味着AI开始直接接管以往需金融人员耗费数十小时完成的任务,标志着金融行业Agent时代的实质性开启。

智能体Anthropic产品更新
09:17
09:15
阿绎 AYi@AYi_AInotes
精选75
Anthropic揭示高速迭代真相:AI Agent协同作战,组织变革成关键

Anthropic基础设施负责人Boris Cherny透露,公司并无秘密模型Mythos,主要使用与公众相同的Claude Opus 4.7。其高速迭代的核心并非技术优势,而是组织结构变革:公司由数百个AI Agent在Slack上协同工作,自动拆分任务、编写代码并解决问题,形成24小时运作的AI军队。工程师团队规模仅增4倍,但人均产出提升200%,Boris本人自2025年11月起未手动写代码。这揭示了AI时代真正的代差在于流程与组织形态。

智能体Anthropic现象/趋势行业动态
关联讨论 2X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)
推荐理由:Anthropic基础设施负责人亲口承认公司已没有一行手写代码,整个团队靠成百上千个Agent在Slack上自治协作。这是2026年AI行业最震撼的内部真相,告诉我们竞争已不在模型参数,而在谁能把公司先改造成AI有机体。
09:15
IT之家(RSS)
46
微软 Xbox 高层大换血: 2 位元老将卸任,5 位 AI 系高管空降

微软Xbox部门在新任首席执行官阿萨·夏尔马上任数月后启动重大领导层重组。两位任职数十年的元老Kevin Gammill和Roanne Sones将卸任。同时,夏尔马从其此前领导的CoreAI团队引入了Jared Palmer、Tim Allen等5位高管空降Xbox,分别负责产品、设计、增长、工程及订阅云业务。夏尔马在内部备忘录中指出,此次调整旨在改变当前效率低下、内部消耗大的工作方式,以加快决策和影响力。

Microsoft行业动态
09:15
IT之家(RSS)
56
对标 OpenClaw,Meta 被曝正开发个性化 AI 智能体

据《金融时报》报道,Meta 正在为其超过30亿用户开发一款高度个性化的AI助手,由新Muse Spark AI模型驱动,旨在对标OpenClaw,帮助用户自动完成网页浏览、邮件管理等日常任务。该助手已进入内部测试,并计划在用户自愿前提下获取健康、财务等敏感信息以提升服务,但面临巨大的用户信任与数据隐私挑战。尽管Meta计划本月裁员10%,CEO扎克伯格仍坚持投入数十亿美元推动AI深度融入产品核心,但投资者对其成本与执行风险日益担忧。

智能体Meta行业动态
09:15
IT之家(RSS)
51
目标剔除 13 岁以下账户,Meta 推进 AI 双重手段验证年龄

Meta 计划在 Facebook 和 Instagram 部署 AI 年龄检测系统,旨在识别并移除未满 13 岁的用户账户。新系统采用文本分析与视觉扫描双重手段:视觉扫描通过分析用户上传的照片和视频,从身高、骨骼结构等物理线索估算年龄范围;文本分析则抓取用户内容中的生日帖、年级提及等信号。Meta 强调该系统不进行面部或身份识别,仅估算大致年龄段,以在保护未成年人安全与尊重用户隐私之间寻求平衡。

Meta产品更新安全/对齐
09:15
IT之家(RSS)
66
AI 训练侵犯版权,爱思唯尔、圣智等多家出版商起诉 Meta

爱思唯尔、圣智、阿歇特等多家出版商及作家斯科特·图罗在曼哈顿联邦法院集体起诉Meta,指控其未经许可滥用数百万部受版权保护的书籍、期刊文章(包括教科书、科学文章及小说《第五季》等)来训练AI模型Llama,并索赔未定金额的经济赔偿。Meta回应称,利用版权材料训练AI可构成合理使用,将积极应诉。此前,AI公司Anthropic曾以支付至少15亿美元的方式,就类似作家集体诉讼达成和解。

Meta政策/监管数据/训练
09:15
IT之家(RSS)
69
Anthropic 承诺 5 年内斥资 2000 亿美元购买谷歌云服务和芯片

据报道,人工智能公司Anthropic已承诺在未来五年内向谷歌云支出2000亿美元,用于购买云服务和AI芯片。这笔巨额承诺占谷歌近期披露的未实现收入的40%以上,消息推动谷歌母公司Alphabet股价盘后上涨约2%。Anthropic表示其AI模型Claude在多种硬件上运行。此前,谷歌已决定向Anthropic投资100亿美元,并可能追加300亿美元。此外,Anthropic也与亚马逊达成长期协议,未来十年将采购超1000亿美元AWS算力资源,并可能获得亚马逊至多250亿美元投资。

AnthropicGoogle行业动态部署/工程
09:04
09:01
Hacker News 热门(buzzing.cc 中文翻译)
65
出版商称,扎克伯格"亲自批准"了Meta的侵权行为

多家出版商指控Meta及其CEO扎克伯格存在大规模版权侵权。诉状称,扎克伯格“亲自批准”使用受版权保护的书籍、新闻文章等作品来训练其Llama系列AI模型,且公司内部明知此举存在法律风险。诉讼寻求就Meta未经许可复制大量作品的行为获得赔偿,具体涉及的作品数量未公开。此案凸显了AI训练数据版权争议的升级。

Meta数据/训练行业动态
09:01
凡人小北@frxiaobei
58
Anthropic以Agent系统改造公司运营,预示生产力变革

核心观点在于Anthropic正将公司改造为由AI Agent持续运行的系统。具体表现为,数百个Claude实例在循环中自动执行任务,并通过Slack等工具相互通信,使代码提交、持续集成、SQL查询、数据整理及反馈聚类等工作在后台自动流动。这种将AI Agent深度整合进核心业务流程的模式,被视为推动生产力大爆发的关键,其意义超越了单纯讨论AI编程能力或商业收入的层面。

智能体Anthropic大佬观点
08:27
Simon Willison 博客
42
datasette-referrer-policy 0.1 发布

Datasette 新插件 datasette-referrer-policy 0.1 发布,旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致:一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求,该问题已修复;二是 OpenStreetMap 会屏蔽使用了 `Referrer-Policy: no-referrer` 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值,从而确保地图正常加载,同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。

开源/仓库部署/工程
08:17
Berryxia.AI@berryxia
64
Google NotebookLM思维导图新增自定义、组织与导航功能

Google NotebookLM的思维导图功能正进行重大升级,新功能从今天起推出。核心更新包括自定义功能,用户可通过特定提示词引导MindMap的生成方向;组织功能支持立即重命名和分享MindMap,提升管理效率;导航功能优化了节点之间的过渡,实现更丝滑的交互体验。此次升级旨在增强工具的灵活性和用户体验,并邀请用户反馈意见。

Google产品更新搜索
08:17
Berryxia.AI@berryxia
66
Gemma 4借助MTP草稿机实现3倍速推理

Google通过为Gemma 4引入MTP drafters(多token预测草稿机),在不增加参数、不改变架构和模型质量的前提下,实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token,突破了传统自回归解码的串行瓶颈,极大提升了GPU利用率。这显著增强了本地部署的实时性,并使Agent、代码生成等场景受益,进一步放大了开源模型在性价比和本地运行方面的优势。

Google开源生态推理模型发布
08:17
Berryxia.AI@berryxia
67
今天这个tts有点东西啊!

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

多模态模型发布语音
08:17
Berryxia.AI@berryxia
精选75
O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。 这是一个重大升级,让你获得更智能、更清晰、更个性化的回答,语气更温暖、更自然。
OpenAI推理模型发布
关联讨论 13X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)
推荐理由:GPT-5.5 Instant 终于进 ChatGPT 了,智能、语气和个性化都提了一档。真正的变化在成本与响应速度,这才是影响亿级用户产品体验的关键。
08:17
Berryxia.AI@berryxia
精选75
Google Gemma 4凭MTP实现3倍加速,vLLM零延迟提供支持

Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。

Berryxia.AIGemma 4 现在最高能跑到 3倍速度,而且质量完全不变。 他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草…

Google推理教程/实践
关联讨论 2X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)
推荐理由:Google的MTP技术让Gemma 4提速3倍,vLLM当天就支持了,做本地Agent和实时应用的开发者现在一条Docker命令就能跑,开源模型性价比优势又拉大一截。
08:17
Berryxia.AI@berryxia
精选72
OpenAI将Agent控制权交予开发者,SDK升级赋能长时运行

OpenAI对其Agents SDK进行重大升级,旨在为构建长时运行Agent提供更强的执行控制能力。核心在于将控制权交给开发者,打破黑盒状态。新功能包括:在受控沙箱环境中运行Agent,支持多家云服务商;允许完全检查和自定义开源harness;以及精准控制记忆的创建时机与存储位置。所有文件、凭证和执行状态均保留在开发者自有环境中,模型仅能访问经批准的上下文。此举解决了Agent易“失控”或“失忆”的问题,显著降低了工程化门槛,推动其从演示原型迈向生产级基础设施。

智能体OpenAI产品更新开源/仓库
关联讨论 1X:OpenAI Developers (@OpenAIDevs)
推荐理由:OpenAI这次把Agent的长时运行、记忆和沙箱控制真正开放给开发者,SDK从玩具跨到生产级基础设施,做Agent的同行该仔细看一遍。
08:15
IT之家(RSS)
40
IT早报 0506:余额宝七日年化收益率首次跌破 1%;小米"昆仑"增程 SUV 谍照曝光;抖音辟谣红果短剧收费不实;鸿蒙智行回应享界 S9 零重力座椅夹头…

天弘余额宝七日年化收益率首次跌破1%,引发市场关注。科技新品方面,小米增程全尺寸SUV“昆仑N3”谍照曝光,华为Pura X Max横阔折手机首周销量表现强劲。企业动态中,抖音辟谣红果短剧将全面收费,鸿蒙智行就享界S9座椅安全传闻作出说明。此外,美国政府将与微软、谷歌等公司合作提前审查前沿AI模型,NASA测试大功率新型离子发动机。数据显示,2026年第一季度全球手机销量前三名均由iPhone 17系列包揽。

OpenAIxAI安全/对齐政策/监管
08:15
IT之家(RSS)
精选75
OpenAI ChatGPT 默认 AI 模型升至 GPT-5.5 Instant:幻觉最高减少 52.5%、回复更简洁

OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant,重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域,幻觉声明较前代减少52.5%;在用户标记的事实错误测试中,不准确声明降低37.3%。回复内容更简洁,减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新,付费用户可继续使用GPT-5.3 Instant三个月。

OpenAI推理模型发布
关联讨论 13X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)
推荐理由:GPT-5.5 Instant 不是新模型发布,而是实测提升:少说废话、少犯错。52.5% 的幻觉降幅对高风险领域用户是个实打实的增益,所有 ChatGPT 用户的对话体验今天起都会简洁一档。
08:01
宝玉@dotey
16
AI语音音色逼真但多音字识别成短板

用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。

大佬观点语音
08:01
Hacker News 热门(buzzing.cc 中文翻译)
65
GLM-5V-Turbo:迈向多模态智能体的原生基础模型

GLM-5V-Turbo作为一款原生多模态基础模型发布,旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异,在MMBench基准测试上达到90.1分,在MathVista测试中取得78.5%的准确率,并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力,为构建更高效的端到端多模态智能体提供了新的模型基础。

智能体多模态论文/研究
08:01
Luma@LumaLabsAI
精选70
推出Uni-1.1 API。 它通过简报进行推理,而不仅仅是处理标记。首次生成的结果即可实际交付。 无需中间件,无需提示工程。时尚工具。建筑渲染器。漫画制作流程。每个垂直领域都具备电影级品质。 可指挥的智能。可交付的审美。→ http://lumalabs.ai/api
产品更新图像生成视频
关联讨论 2X:Rohan Paul (@rohanpaul_ai)X:Luma AI (@LumaLabsAI)
推荐理由:Luma 的 API 把视频生成的门槛压到「写需求就出片」,不用调 prompt 也不用搭中间件,做短视频和概念设计的可以直接拿去试。
08:00
HuggingFace Daily Papers(社区热门论文)
58
KernelBench-X:评估LLM生成的GPU内核的综合基准测试

KernelBench-X基准测试系统评估LLM生成的Triton GPU内核,涵盖15个类别共176项任务。研究比较五种代表性方法,发现:任务结构对正确性的影响远超方法设计,类别因素解释的方差是方法的近三倍;迭代优化将编译成功率从52.3%提升至68.8%,但平均加速比从1.58倍降至1.44倍;46.6%的正确内核性能低于PyTorch基线,量化任务全部失败。未来需关注全局协调、数值精度建模与硬件效率整合。

数据/训练编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
RemoteZero:无需人工标注的地理空间推理

地理空间推理模型通常依赖人工标注的边界框坐标进行监督,这限制了其在海量无标注遥感数据上的自我进化。为此,研究团队提出RemoteZero框架,它利用多模态大语言模型在判别区域语义方面的优势,以内在语义验证取代几何坐标监督,从而实现了无需边界框标注的训练。该框架支持迭代式自我进化,模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明,RemoteZero在定位任务上取得了与强监督方法相竞争的性能,展现了自验证训练在地理空间推理领域的潜力。

arXiv多模态推理数据/训练