OpenAI 为 Codex 发布官方迁移方案,支持从其他 AI Coding Agents 一键导入指令、配置、技能、近30天会话等资产。迁移采用“自动迁移+残留兜底”设计:通过用户级和项目级双层扫描,执行检测、迁移、回检的四步循环;自动处理可识别配置后,对剩余部分使用 `migrate-to-codex` skill 手动处理。需注意 Slash commands 被归入 Skills 体系,且会话历史仅限30天。迁移完成后,必须人工复核工具权限、MCP服务器认证、Hooks行为差异等五类内容,因平台间语义或实现差异可能影响功能。
Philipp Schmid 将主代理管理子代理的模式按控制力分为四档。模式一为内联工具调用,子代理如同函数,适用于独立任务。模式二为派发后收集,主代理可并行处理其他工作。模式三为代理池,子代理持久化并通过消息通信,支持多步协作。模式四为团队模式,代理间直接对话,主代理仅负责初始组建。核心建议是从简单模式开始,逐级升级需谨慎,因为每升一级对模型能力要求陡增,且许多任务用模式一即可解决。
找一位设计师,负责一款 AI 方向的产品 希望: - 会用 AI - 有完整移动端产品经验 - 对女性用户体验有洞察(很重要) - 有自己的审美和想法 …
Google发布了Gemma 4系列模型的专用草稿模型,用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍,仅增加1G显存开销;Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB,专门优化后接受率高,相比之前使用非专用草稿模型(如gemma-4-E2B-it-UD-Q4_K_XL)提速更明显。作者呼吁Qwen尽快推出类似优化模型(如Qwen3.6-27B-assistant),以应对高性能需求。
关联讨论 2 条X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)前沿模型SubQ基于创新的Subquadratic Sparse Attention架构,实现了1200万token的实用上下文窗口。其核心技术SSA通过内容依赖的选择机制,让每个查询仅动态计算与相关键的注意力,使计算和内存成本随序列长度线性增长,而非传统Transformer的二次方增长。实测在100万token时比FlashAttention-2快52.2倍,成本低于Opus的5%。该模型针对需要一次性处理完整代码库、长文档等企业真实长上下文场景优化,旨在弥合“名义上下文”与“功能上下文”窗口的差距。
关联讨论 1 条X:Rohan Paul (@rohanpaul_ai)用户利用GPT Image 2 Prompt功能,描述生成一张半写实半动画照片,其中用户与动画角色野原新之助(小新)及其全家合影。照片要求小新、父亲广志、母亲美冴、妹妹向日葵和宠物小白保持原始动画形象,并自然融入真实环境。每个角色被赋予特定性格:小新滑稽淘气,广志温和朴实,美冴表情丰富略带严厉,小葵天真可爱,小白软萌伶俐。同时,引用推文展示了类似提示词,用于生成高度写实、角色略带风格化且与环境自然融合的照片,强调提示词在AI图像生成中的应用。
Anthropic正式发布面向金融服务的Claude Agent模板,将AI在金融领域的角色从“辅助”升级为“直接执行”。该模板针对融资演示、估值审查、月末结账等高频率、耗时的核心流程,提供开箱即用的解决方案。它集成了完整的连接器、技能和子代理,可直接适配公司内部标准,并支持在Claude协作与开发环境中安装插件,或通过官方指南一键部署为生产级托管Agent。此举意味着AI开始直接接管以往需金融人员耗费数十小时完成的任务,标志着金融行业Agent时代的实质性开启。
Anthropic基础设施负责人Boris Cherny透露,公司并无秘密模型Mythos,主要使用与公众相同的Claude Opus 4.7。其高速迭代的核心并非技术优势,而是组织结构变革:公司由数百个AI Agent在Slack上协同工作,自动拆分任务、编写代码并解决问题,形成24小时运作的AI军队。工程师团队规模仅增4倍,但人均产出提升200%,Boris本人自2025年11月起未手动写代码。这揭示了AI时代真正的代差在于流程与组织形态。
关联讨论 2 条X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)微软Xbox部门在新任首席执行官阿萨·夏尔马上任数月后启动重大领导层重组。两位任职数十年的元老Kevin Gammill和Roanne Sones将卸任。同时,夏尔马从其此前领导的CoreAI团队引入了Jared Palmer、Tim Allen等5位高管空降Xbox,分别负责产品、设计、增长、工程及订阅云业务。夏尔马在内部备忘录中指出,此次调整旨在改变当前效率低下、内部消耗大的工作方式,以加快决策和影响力。
据《金融时报》报道,Meta 正在为其超过30亿用户开发一款高度个性化的AI助手,由新Muse Spark AI模型驱动,旨在对标OpenClaw,帮助用户自动完成网页浏览、邮件管理等日常任务。该助手已进入内部测试,并计划在用户自愿前提下获取健康、财务等敏感信息以提升服务,但面临巨大的用户信任与数据隐私挑战。尽管Meta计划本月裁员10%,CEO扎克伯格仍坚持投入数十亿美元推动AI深度融入产品核心,但投资者对其成本与执行风险日益担忧。
Meta 计划在 Facebook 和 Instagram 部署 AI 年龄检测系统,旨在识别并移除未满 13 岁的用户账户。新系统采用文本分析与视觉扫描双重手段:视觉扫描通过分析用户上传的照片和视频,从身高、骨骼结构等物理线索估算年龄范围;文本分析则抓取用户内容中的生日帖、年级提及等信号。Meta 强调该系统不进行面部或身份识别,仅估算大致年龄段,以在保护未成年人安全与尊重用户隐私之间寻求平衡。
爱思唯尔、圣智、阿歇特等多家出版商及作家斯科特·图罗在曼哈顿联邦法院集体起诉Meta,指控其未经许可滥用数百万部受版权保护的书籍、期刊文章(包括教科书、科学文章及小说《第五季》等)来训练AI模型Llama,并索赔未定金额的经济赔偿。Meta回应称,利用版权材料训练AI可构成合理使用,将积极应诉。此前,AI公司Anthropic曾以支付至少15亿美元的方式,就类似作家集体诉讼达成和解。
据报道,人工智能公司Anthropic已承诺在未来五年内向谷歌云支出2000亿美元,用于购买云服务和AI芯片。这笔巨额承诺占谷歌近期披露的未实现收入的40%以上,消息推动谷歌母公司Alphabet股价盘后上涨约2%。Anthropic表示其AI模型Claude在多种硬件上运行。此前,谷歌已决定向Anthropic投资100亿美元,并可能追加300亿美元。此外,Anthropic也与亚马逊达成长期协议,未来十年将采购超1000亿美元AWS算力资源,并可能获得亚马逊至多250亿美元投资。
多家出版商指控Meta及其CEO扎克伯格存在大规模版权侵权。诉状称,扎克伯格“亲自批准”使用受版权保护的书籍、新闻文章等作品来训练其Llama系列AI模型,且公司内部明知此举存在法律风险。诉讼寻求就Meta未经许可复制大量作品的行为获得赔偿,具体涉及的作品数量未公开。此案凸显了AI训练数据版权争议的升级。
核心观点在于Anthropic正将公司改造为由AI Agent持续运行的系统。具体表现为,数百个Claude实例在循环中自动执行任务,并通过Slack等工具相互通信,使代码提交、持续集成、SQL查询、数据整理及反馈聚类等工作在后台自动流动。这种将AI Agent深度整合进核心业务流程的模式,被视为推动生产力大爆发的关键,其意义超越了单纯讨论AI编程能力或商业收入的层面。
Datasette 新插件 datasette-referrer-policy 0.1 发布,旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致:一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求,该问题已修复;二是 OpenStreetMap 会屏蔽使用了 `Referrer-Policy: no-referrer` 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值,从而确保地图正常加载,同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。
Google NotebookLM的思维导图功能正进行重大升级,新功能从今天起推出。核心更新包括自定义功能,用户可通过特定提示词引导MindMap的生成方向;组织功能支持立即重命名和分享MindMap,提升管理效率;导航功能优化了节点之间的过渡,实现更丝滑的交互体验。此次升级旨在增强工具的灵活性和用户体验,并邀请用户反馈意见。
Google通过为Gemma 4引入MTP drafters(多token预测草稿机),在不增加参数、不改变架构和模型质量的前提下,实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token,突破了传统自回归解码的串行瓶颈,极大提升了GPU利用率。这显著增强了本地部署的实时性,并使Agent、代码生成等场景受益,进一步放大了开源模型在性价比和本地运行方面的优势。
Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。
Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。
Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。 他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草…
关联讨论 2 条X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)OpenAI对其Agents SDK进行重大升级,旨在为构建长时运行Agent提供更强的执行控制能力。核心在于将控制权交给开发者,打破黑盒状态。新功能包括:在受控沙箱环境中运行Agent,支持多家云服务商;允许完全检查和自定义开源harness;以及精准控制记忆的创建时机与存储位置。所有文件、凭证和执行状态均保留在开发者自有环境中,模型仅能访问经批准的上下文。此举解决了Agent易“失控”或“失忆”的问题,显著降低了工程化门槛,推动其从演示原型迈向生产级基础设施。
关联讨论 1 条X:OpenAI Developers (@OpenAIDevs)天弘余额宝七日年化收益率首次跌破1%,引发市场关注。科技新品方面,小米增程全尺寸SUV“昆仑N3”谍照曝光,华为Pura X Max横阔折手机首周销量表现强劲。企业动态中,抖音辟谣红果短剧将全面收费,鸿蒙智行就享界S9座椅安全传闻作出说明。此外,美国政府将与微软、谷歌等公司合作提前审查前沿AI模型,NASA测试大功率新型离子发动机。数据显示,2026年第一季度全球手机销量前三名均由iPhone 17系列包揽。
OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant,重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域,幻觉声明较前代减少52.5%;在用户标记的事实错误测试中,不准确声明降低37.3%。回复内容更简洁,减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新,付费用户可继续使用GPT-5.3 Instant三个月。
关联讨论 13 条X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。
GLM-5V-Turbo作为一款原生多模态基础模型发布,旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异,在MMBench基准测试上达到90.1分,在MathVista测试中取得78.5%的准确率,并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力,为构建更高效的端到端多模态智能体提供了新的模型基础。
KernelBench-X基准测试系统评估LLM生成的Triton GPU内核,涵盖15个类别共176项任务。研究比较五种代表性方法,发现:任务结构对正确性的影响远超方法设计,类别因素解释的方差是方法的近三倍;迭代优化将编译成功率从52.3%提升至68.8%,但平均加速比从1.58倍降至1.44倍;46.6%的正确内核性能低于PyTorch基线,量化任务全部失败。未来需关注全局协调、数值精度建模与硬件效率整合。
地理空间推理模型通常依赖人工标注的边界框坐标进行监督,这限制了其在海量无标注遥感数据上的自我进化。为此,研究团队提出RemoteZero框架,它利用多模态大语言模型在判别区域语义方面的优势,以内在语义验证取代几何坐标监督,从而实现了无需边界框标注的训练。该框架支持迭代式自我进化,模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明,RemoteZero在定位任务上取得了与强监督方法相竞争的性能,展现了自验证训练在地理空间推理领域的潜力。