研究人员发布了学习扩散模型积分的新方法,称为Flow Maps,该技术通过数学积分优化扩散过程的概率流,提升生成AI模型的采样效率和图像质量。在Hacker News上获得102点,显示科技社区的高度关注。这一进展可能降低扩散模型的计算成本,推动其在图像生成等领域的实际应用,为生成模型训练提供更高效的解决方案。
Amp发布CLI工具Neo,标志着Coding Agent从“陪伴式”转向“长链路”新方向,核心是减少人工介入、支持随处运行与触发。关键更新包括:实现本地线程的远程控制与编排;引入自动上下文压缩,淘汰手动管理;正式发布Plugin API,支持扩展工具与交互;采用队列与引导机制优化工作流;权限模型彻底反转,默认允许所有操作,将安全控制权移交插件系统;性能大幅提升,CPU与内存占用显著下降。此次更新旨在构建更自主、高效且可扩展的智能编程代理架构。
针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。
针对高性能少步图像生成模型(如Z-Image-Turbo)在持续监督微调中会损害其固有少步推理能力的问题,本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点,将训练构建为在线策略自蒸馏过程:模型同时扮演教师(以文本和图像多模态特征为条件)和学生(仅以文本特征为条件)双重角色,并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格,同时保持原有的高效少步生成能力。
谷歌紧急推送版本号为I610UEU2AZD8的修复补丁,以解决三星Galaxy XR头显在安装4月系统更新后出现的严重内存泄漏问题。该故障导致设备在运行20至30分钟后内存占用持续攀升直至耗尽,引发系统卡死、画面帧率大幅下降,用户体验严重受损。官方确认此次更新修复了前述问题,并包含一系列系统稳定性与性能优化措施。所有受影响用户可通过系统设置中的软件更新菜单手动下载并安装此补丁。
海信大白闺蜜机 X8 Ultra 将于5月30日20:00开售,定价8499元。该产品采用32英寸4K面板,配备天鹅颈灵动系统和20000mAh电池,续航达15小时。存储组合为8GB+256GB,运行Android系统,支持Wi-Fi并集成摄像头。其主要功能覆盖护眼学习、家庭娱乐、智能AI助手、居家办公及健身追剧,同时支持AI健身、AI语音和K歌。
谷歌DeepMind宣布收购Fenris Creations少数股权,并将在大型多人在线游戏《星战前夜》中训练AI,以攻克AI长期规划难题。这款运营了23年的游戏拥有复杂的科幻宇宙和高度社会模拟,要求玩家进行长期策略规划与政治博弈,正切中当前AI研究的薄弱环节。为确保不影响玩家体验,DeepMind初期将在隔离服务器上进行研究,游戏方也将利用其成果优化游戏。Fenris Creations近期刚以1.2亿美元现金及加密货币完成自我回购。
马斯克仅用一句“GB300是最好的AI计算机”,便揭示了AI竞争核心已从模型转向算力。他通过SpaceX将旗下全球最大的GB300集群Colossus 1(拥有超22万块顶级GPU)全部容量开放给Anthropic使用,使两大顶尖实验室共享同一计算平台。此举不仅彰显了NVIDIA硬件的统治地位,更展现了马斯克构建的完整商业闭环:自建集群、开放变现、再投资扩建,并规划未来将数据中心送入太空以突破能源与散热限制。这标志着他正从AI参与者转变为算力规则的制定者。
开源项目 Open Slide 基于 React 框架构建 PPT,其工作流专为 AI Agent 设计。它利用丰富的 React 组件库实现更强扩展性,便于集成各类图表。核心功能包括可视化编辑器支持手动修改,以及 AI 能直接读取用户评论并协同修改内容。项目还集成了包含 1500+ 品牌 Logo 的 SVGL 库,方便技术演示,旨在提升 PPT 制作的效率与自动化程度。
Refero Styles是一个为AI Agent设计的前端参考网站,允许输入网站名或URL自动提取设计风格并生成DESIGN.md文件。它收录了ElevenLabs、Apple等优质网站的Design文档,并提供Refero MCP,包含真实产品截图和用户流程,让AI Agent在编码前参考以提升效率。
马斯克宣布解散xAI,其将不再作为独立实体,而是直接并入SpaceX并更名为SpaceXAI。同时,Anthropic宣布与SpaceX达成算力合作,将租用其拥有超过22万张NVIDIA GPU的Colossus 1数据中心。Anthropic还宣布了Claude模型服务的多项升级,包括Claude Code速率翻倍、取消高峰时段降速限制以及大幅上调Opus系列API的速率限制。
关联讨论 15 条Simon Willison 博客Hacker News 热门(buzzing.cc 中文翻译)X:Testing Catalog (@testingcatalog)Anthropic:Newsroom(网页)X:xAI (@xai)X:Thariq (@trq212)X:Claude Devs (@ClaudeDevs)xAI:News(网页)X:歸藏 (@op7418)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:阿易 AI Notes (@AYi_AInotes)X:Berry Xia (@berryxia)Anthropic联合创始人Dario Amodei在开发者大会上表示,Claude服务持续限速的直接原因是需求增速远超预期。公司原本按年增10倍规划算力,但2026年第一季度实际年化增速高达80倍,导致算力供不应求。为此,Anthropic已与SpaceX签署协议,将获得Colossus 1数据中心超过300 MW、22万张NVIDIA GPU的全部算力。Dario称这种指数级增长虽在理论预测内,但实际体验仍令人震撼。公司视开发者为AI扩散的先行指标和最重要用户群体,并正致力于攻克代码安全等“主观”能力。
关联讨论 15 条Simon Willison 博客Hacker News 热门(buzzing.cc 中文翻译)X:Testing Catalog (@testingcatalog)Anthropic:Newsroom(网页)X:xAI (@xai)X:Thariq (@trq212)X:Claude Devs (@ClaudeDevs)xAI:News(网页)X:歸藏 (@op7418)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:阿易 AI Notes (@AYi_AInotes)X:Berry Xia (@berryxia)SpaceX将其Colossus 1超算的算力开放给Anthropic使用,该设施拥有超过22万块NVIDIA GPU和超300MW电力。Anthropic随即取消了Claude产品的使用限额并提升了API速率。双方未来将合作开发吉瓦级的轨道AI计算能力,旨在利用太空的可持续电力。此举本质是SpaceX将闲置算力变现并验证其“轨道计算”商业模式,展现了Musk旗下业务的垂直整合优势。合作标志着AI竞争核心已转向算力、电力等基础设施。
字节推出的TRAE SOLO AI Agent工具现已向全量用户开放App、Web和桌面三端,实现跨设备无缝衔接。其移动端支持访问电脑项目、调用已安装技能并执行任务,演示了数据分析、信息整理、学习辅助及自动化等场景。工具支持第三方模型和技能扩展,并与飞书深度集成,便捷创建文档和日程。其“More Than Coding”理念强调AI Agent能处理各类长程复杂任务,而不仅限于编程。
TRAE SOLO推出移动端应用,可与电脑端IDE打通,实现远程控制与任务下发。该应用支持用户配置第三方模型并使用自己的API密钥,增强了灵活性与自主性。尤其在与飞书绑定后,其实用性显著提升,使得用户能够在手机端处理一些相对复杂的任务,扩展了移动办公与开发的场景。
推文复盘了2026年Q1 AI Agent领域竞争。Anthropic虽高频发布新功能,但产品线割裂、体验断裂,口碑在技术圈内下滑。OpenAI则通过聚焦并整合能力于Codex超级App实现反超,其统一架构和开发者友好策略赢得人心。趋势上,被动式Agent(如Codex)适用于深度协同工作,而主动式Agent(如OpenClaw)通过异步指挥处理日常任务,价值凸显。此外,Computer Use(Agent操控电脑)和协议碎片化的Agentic Commerce(Agent支付)是两大被低估的关键趋势。预测知识工作效率将指数级提升,B2B需设计对模型友好的体验,同时深度伪造等安全风险加剧。
研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。
研究团队开发了SpecMD,这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型,这类模型虽然实现了稀疏专家激活,但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略,但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白,系统性地评估缓存策略的交互影响与硬件适配性。
Google Translate的Live translate功能通过耳机提供70多种语言的实时同声传译。用户只需佩戴耳机并启动应用,即可在耳中直接听到翻译。该功能基于Gemini高级语音模型,不仅能准确翻译语义,还能保留说话人的语气、重音和节奏等细微特征,使交流体验更接近真人对话。这项技术旨在消除跨语言沟通的障碍,让用户在海外能进行更自然的交流。
谷歌于5月4日宣布停运其于2024年12月推出的实验性网页自动化项目Project Mariner。该项目旨在代替用户执行跨网站的多步骤任务,如信息检索与操作。谷歌强调其技术并未废弃,核心功能已被整合至Gemini智能体和AI Mode等核心产品中。过去一年,谷歌已逐步将此类智能体能力融入现有生态,例如让Gemini Agent代为处理邮件和预订酒店。此外,谷歌今年在Chrome中展示的“auto-browse”AI功能,可执行查询航班价格等复杂任务,被视为对竞争对手的直接回应。
漫步者 Lolli5 ANC 智能触控大圆屏耳机已上市,售价539元,提供沙滩白、礁石黑、落日橙三种配色。其最大亮点是充电盒配备智能触控屏,可显示时间并控制音乐、拍照。耳机支持50dB深度、5kHz宽度的ANC自适应降噪和3+3麦智能通话降噪,拥有双Hi-Res金标认证。采用13mm双复合LCP液晶振膜单元,支持蓝牙6.0、双设备连接和IP55级防尘防水。此外,还集成了豆包与DeepSeek双脑问答、会议录音及App实时互译等智能功能。