研究团队推出AcademiClaw双语基准测试集,包含80项源自大学生真实学术流程的复杂长周期任务,涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选,覆盖超过25个专业领域,包括奥数、语言学、GPU密集型强化学习等,其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行,采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示,最佳通过率仅为55%,分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。
AI芯片企业Cerebras Systems宣布启动IPO路演,计划发行2800万股A类普通股,并授予承销商额外认购最多420万股的选择权。预计发行价格为每股115至125美元,此次IPO将至少筹集32.2亿美元。Cerebras是少数专注于“晶圆级芯片”的制造商,近期还与OpenAI签署了一份为期三年、金额超200亿美元的芯片供应合同。
Meta于5月1日完成了对物理AI初创公司Assured Robot Intelligence的收购,具体金额未披露。这家成立仅一年的公司专注于开发能在动态环境中理解、预测和适应人类行为的机器人智能。Meta表示,ARI团队在模型设计、机器人控制及自主学习方面拥有深厚专业知识,其技术将应用于全身人型机器人控制领域。ARI联合创始人称,公司创立目标是实现物理通用人工智能,未来团队将加入Meta Superintelligence Labs,共同推动具有类人形态的智能体从人类经验中学习并进入物理世界。
在庭审中,OpenAI总裁格雷格·布罗克曼透露其持股价值近300亿美元。马斯克的律师史蒂文·莫洛就此盘问,质疑他为何不将大部分收益捐给公司的非营利基金会,并援引其2017年日记中“如何达到10亿美元财富”的记载,以证明布罗克曼与CEO奥尔特曼更关注个人致富而非造福人类。布罗克曼辩称当时是在权衡公司发展路径,且OpenAI的成就靠团队拼搏而来。法官指出他未直接回答捐款质疑。
英特尔宣布重大人事与组织架构调整,任命前高通高管 Alex Katouzian 为执行副总裁兼新成立的客户端计算和物理 AI 事业部总经理。该部门由原客户端计算业务与物理AI业务合并而成,旨在整合资源,抓住边缘计算与物理AI(如机器人、自主机器)的发展机遇。同时,公司正式任命 Pushkar Ranade 为企业首席技术官,负责推进量子计算等新兴技术战略。两位高管均直接向首席执行官陈立武汇报,此举旨在推动AI PC、边缘AI推理及下一代计算体验的创新。
Google工程总监Addy Osmani提出“特工技能”框架,界定AI智能体所需的核心能力。该框架将技能分为基础与高阶两类:基础技能涵盖规划、工具使用、记忆及多模态理解;高阶技能包括团队协作、个性化、创造力与长期目标达成。Osmani指出,拥有这些综合能力的智能体可更自主地处理复杂任务,例如仅凭一句“规划假期”指令即能完成全流程安排。这标志着AI智能体正从简单指令执行者向能解决复杂问题的“数字员工”演进。
知名科技博主 John Gruber 披露了 Y Combinator 在 OpenAI 的具体持股比例。根据其从知情人士处获得的信息,Y Combinator 持有 OpenAI 约 0.6% 的股份。以 OpenAI 当前 8520 亿美元的估值计算,这部分股权的价值超过 50 亿美元。这一具体数字此前难以获知,揭示了这家知名孵化器在人工智能巨头中的财务利益规模。
北京大学在建校128周年之际,发布了首部AI生成的校庆宣传片《举火》。该片回顾了学校自1898年创办以来的重要历史事件、知名校友及科研成果,例如在23位“两弹一星”元勋中,有12位是北大校友。视频以“举火”为主题,展现了从历史传承到当代青年接续奋斗的脉络,标志着北大在利用人工智能技术进行形象传播方面迈出新的一步。
IBM近日发布了采用Apache 2.0许可证的Granite 4.1大语言模型系列。随后,Unsloth提供了该系列3B模型的21个GGUF量化变体。作者利用这些大小从1.2GB到6.34GB不等的量化模型,尝试生成“鹈鹕骑自行车”的SVG图像以测试其能力。实验结果显示,所有模型生成的图像质量均较差,且未观察到模型大小与输出质量之间存在明显关联。基于此次不理想的尝试,作者表示未来将选用更擅长图像生成的模型重新进行此类实验。
科技行业动态聚焦:iPhone 18 Pro的CAD设计显示其Face ID开孔面积缩小35%,为未来屏下传感器技术铺路。小米据称已暂停小折叠手机产品线,将资源集中于大折叠产品的更新。豆包AI推出三档付费订阅服务,起价68元/月,专注于PPT生成等生产力场景。此外,realme被曝在国内市场暂无新机规划,其售后服务已整合至OPPO体系。特斯拉弗里蒙特工厂最后一辆Model X下线,该工厂将转产Optimus人形机器人。
机器人租赁公司Elite Event Robotics近日携带一台重约31.8公斤的宇树人形机器人Bebop,乘坐美国西南航空从奥克兰飞往圣地亚哥的航班。由于机器人包装箱超重,团队为其购买了一个人类座位。但西南航空以电池尺寸超标为由没收了机器人的动力电池,导致航班延误超过一小时。此次事件展示了人形机器人实际乘坐民航客机的尝试,也凸显了航空运输对大型机器人电池的严格限制。
Anthropic宣布与黑石、赫尔曼与弗里德曼及高盛共同成立一家新的AI服务公司,旨在面向各行业的中型企业落地其AI模型Claude。该公司将通过Anthropic的应用AI工程师与客户团队协作,为中型企业构建定制化的Claude解决方案并提供长期支持。此外,据彭博社报道,Anthropic正考虑新一轮融资,估值有望达到9000亿美元(约合6.15万亿元人民币),或将超越OpenAI成为全球最具价值的AI初创企业。
OpenAI发布欧洲青少年安全蓝图及EMEA青少年与福祉资助计划,旨在为青少年、家庭和教育工作者推进安全、负责任的人工智能。该蓝图提出区域性安全框架,资助计划将支持相关实践与工具开发,重点关注人工智能在教育场景中的伦理应用与风险防护。两项举措共同强化对EMEA地区青少年数字福祉的系统性保障。
研究探讨了深度受限Transformer在Horn子句上进行隐式演绎推理的缩放规律。通过系统解耦可证明性与虚假特征、并强制算法对齐,发现在具备双向前缀掩码的足够深模型中,隐式推理在不同图拓扑和问题宽度上能够接近显式思维链的性能表现,但深度外推任务仍需依赖思维链方法。
音频-视觉智能已成为人工智能的核心前沿领域,旨在让机器能够感知、生成并交互于多模态现实世界。在大模型时代,音频与视觉的联合建模愈发关键,不仅用于理解,更支持对动态时序信号的可控生成与推理。Meta MovieGen、Google Veo-3等最新进展凸显了业界与学界对统一音视频架构的关注。然而,该领域研究仍较为分散,任务多样、分类不一致、评估方法各异,阻碍了系统化比较与知识整合。本综述首次从大模型视角全面回顾音频-视觉智能,建立了统一的任务分类体系,涵盖理解、生成与交互三大方向,并综合了模态标记化、跨模态融合、自回归与扩散生成、大规模预训练等核心方法。同时,研究梳理了代表性数据集、基准与评估指标,指出同步性、空间推理、可控性与安全性等开放挑战。
评估人的动作完成质量(熟练度)对教学、康复等领域至关重要,但其挑战在于细微的时空差异分布于多视角视频中。本文针对Ego-Exo4D数据集提出三种创新方法:SkillFormer采用参数高效的判别式架构实现选择性多视角融合;PATS通过保留基础动作的局部密集片段来改进时序采样;ProfVLM则将任务重构为条件语言生成,通过门控跨视角投影器和紧凑语言模型,同时输出熟练度标签与专家风格反馈。这些方法仅需比视频Transformer基线少20倍的可训练参数和少3倍的训练周期,即达到最优准确率,推动了该任务从封闭集分类向可解释反馈生成的范式转变。
APEX是首个面向AI生成音乐的大规模多任务学习框架,旨在联合预测流行度与美学质量。该框架基于Suno和Udio平台的21.1万首歌曲(约1万小时音频)训练,利用自监督音乐理解模型MERT提取音频嵌入,同时预测基于参与度的流行度指标(播放量与点赞数)以及五个感知美学维度。在包含11个未见生成系统的Music Arena数据集上进行分布外评估发现,加入美学特征能持续提升人类偏好预测准确性,表明所学表征在不同生成架构间具备强泛化能力。美学质量与流行度共同揭示了AI生成音乐的互补价值。
推理密集型检索旨在为下游推理提供证据支持,而非仅匹配主题相似性,这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足,研究发布了BRIGHT-Pro专家标注基准,为每个查询扩展了多维度黄金证据,并在静态与智能体搜索两种协议下评估检索器。同时,研究构建了RTriever-Synth合成语料库,通过生成互补正例和正例条件硬负例,对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明,维度感知与智能体评估能揭示标准指标所掩盖的检索行为,而RTriever-4B相比其基础模型取得了显著提升。
为提升视觉-语言-动作模型在复杂现实任务中的功能覆盖,研究团队推出通用机器人策略RLDX-1。该模型基于多流动作变换器架构,整合运动感知、记忆决策与物理传感等异构模态,并辅以合成罕见场景数据、仿人操作学习流程及实时推理优化等系统设计。在仿真与真实测试中,RLDX-1全面超越前沿模型π_{0.5}和GR00T N1.6,尤其在ALLEX人形机器人任务上取得86.8%的成功率,显著高于对照模型的约40%,标志着其在接触密集型动态灵巧操作领域取得关键进展。
针对流式视频扩散模型的分布匹配蒸馏方法普遍均等对待所有输出,限制了质量提升。Stream-R1框架提出统一的奖励引导机制,从两个层面自适应重加权蒸馏目标:在序列间,依据预训练奖励分数对损失进行重缩放,让高可靠性序列主导优化;在序列内,利用同一奖励模型的反向传播生成像素级时空权重,将优化集中于预期增益最大的区域和帧。该方法在标准基准测试中,于视觉质量、运动质量和文本对齐方面均持续优于基线,且无需改变架构或增加推理开销。
JoyAI-Image是一个统一的多模态基础模型,集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构,实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号,增强了模型的几何感知推理与可控视觉合成能力。实验表明,该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环,推动模型向更强的空间智能演进,为下游应用提供了新路径。
研究团队提出PORTool算法,以解决多工具集成推理中仅依靠结果奖励导致的信用分配模糊问题。该方法通过重要性感知策略优化,在结果级监督下强化智能体的工具使用能力,同时实现步骤级奖励分配。PORTool生成奖励树来明确关键决策步骤,从而更精确地引导模型学习有效的工具调用序列,提升复杂任务解决的效率和可靠性。
一篇关于大型语言模型的讨论文章在Hacker News社区获得关注,获得了105个社区积分。文章探讨了LLMs的相关议题,但提供的具体技术细节或核心论点有限。主要信息点在于其社区反响,而非模型本身的技术发布或性能指标变化。
2026年4月的赞助者专属月度通讯已发布,内容涵盖多项AI领域重要更新。主要包括Opus 4.7与GPT-5.5模型的发布及价格调整、Claude Mythos模型的推出与LLM安全研究进展、以及ChatGPT Images 2.0版本的图像处理功能增强。此外,通讯还汇总了更多模型发布信息、作者博客的其他亮点,以及作者本月的个人工具与技术使用分享。赞助者可立即访问完整内容,非赞助者支付10美元/月即可提前一个月获取这些更新。
Andy Masley 驳斥了关于数据中心建设导致农田耗尽的论点。他指出,2000年至2024年间,美国农民自愿出售的农田总面积相当于科罗拉多州,是2028年数据中心预计占地总面积的77倍,但剩余土地的粮食产量却创新高,未影响粮食供应。然而,当劳登县一位农民仅以十倍农业价值出售几英亩普通草场给数据中心运营商时,却引发了过度担忧。Masley 认为,这种对数据中心用地的担忧是夸大其词的。
本次更新包含多项功能优化与错误修复。主要功能上,`/color` 命令支持无参数随机选色,`/mcp` 命令显示已连接服务器的工具数量,`--plugin-dir` 参数新增支持 `.zip` 插件包。用户体验方面,优化了 `/model` 选择器的显示。关键问题修复包括:解决了通过标准输入传输超大文件时导致的崩溃循环、修复了长 URL 在全屏模式下无法逐行点击的问题,以及修正了并行 Shell 工具调用中一个命令失败会错误取消同级调用的问题。此外,还处理了 MCP 服务器重连时工具列表刷屏等多个稳定性问题。
OpenAI通过优化推理堆栈,将其语音AI模型Whisper的实时转录延迟从2.8秒大幅降低至232毫秒。核心改进包括引入流式编码器、改进的解码策略与缓存机制,并采用分块处理技术。这些优化使系统能在用户说话结束后的极短时间内完成转录,为大规模部署低延迟语音交互应用提供了关键技术支撑。
Gemini API 引入了事件驱动的 Webhook 功能,这是一种基于推送的通知系统。它旨在消除低效的轮询需求,为长时运行的任务(如文件处理或复杂推理)提供更优的解决方案。当任务完成时,系统会自动将结果推送到用户指定的端点,从而显著降低延迟并减少资源消耗,提升开发效率与响应速度。
关联讨论 1 条X:Google AI for Developers (@googleaidevs)OpenAI、谷歌和微软共同支持一项旨在为学校“人工智能素养”教育提供资金的法案。该法案计划通过专项拨款,推动美国K-12及高等教育机构将人工智能基础知识纳入课程体系,目标是提升学生对AI技术的理解与应用能力。此举标志着科技巨头正积极推动AI教育的普及化,以应对人工智能快速发展带来的技能需求变化。法案若通过,将为相关教育项目提供稳定的联邦资金支持。
OpenAI 将 GPT-5.5 的按 token 计价提高了一倍,但新模型在输出上更为简洁。通过实际使用测量发现,尽管单价上涨,由于模型响应更精炼、消耗的 token 数量减少,最终净成本影响可能低于预期。关键变化在于单位价格与模型效率之间的平衡,实际支出需结合具体使用场景和生成长度综合评估。
关联讨论 1 条X:OpenRouter (@OpenRouter)OpenAI 重建了其 WebRTC 技术栈,以支持实时语音 AI 服务。新系统实现了低延迟、全球规模扩展和无缝的对话轮转。此次重构旨在为 ChatGPT 的语音模式等产品提供更流畅、更自然的实时语音交互体验,解决了大规模部署时面临的延迟与稳定性挑战。
Anthropic联合Blackstone、Hellman & Friedman以及Goldman Sachs共同成立一家新的AI服务公司,旨在帮助中型企业部署和采用其AI模型Claude。这一举措表明,领先的AI企业已形成共识:单纯提供AI模型已不足以满足市场需求,必须构建包括咨询、集成和支持在内的完整服务体系,才能真正推动AI技术在企业端的规模化应用。
作者受 antirez 将 TRE 正则表达式引擎集成到 Redis 的启发,深入探索了 Ville Laurikari 开发的 TRE 引擎。他利用 Claude Code 构建了一个基于 ctypes 的实验性 Python 绑定库,并针对该库进行了一系列恶意的正则表达式攻击测试。结果显示,由于 TRE 引擎不支持回溯机制,其在抵御这些攻击方面的表现远优于 Python 标准库中的正则表达式实现。
谷歌于2026年4月宣布多项AI进展。核心包括推出新一代多模态模型Gemini 2.0,其上下文窗口大幅扩展至200万tokens,并增强了对实时视频和音频的理解能力。同时,AI深度集成至搜索与Workspace产品中,提供智能规划与自动化助手功能。公司还开源了轻量级模型Gemma 2系列,并升级了AI开发平台Vertex AI,强调实用性、可访问性及负责任部署。
Redis创始人Salvatore Sanfilippo提交了为Redis新增数组数据类型的PR,引入了包括ARCOUNT、ARDEL、ARGREP等在内的18个新命令。其中最引人注目的是ARGREP命令,它利用新集成的TRE正则表达式库,可直接在服务器端对数组值进行正则搜索。目前该功能已在一个分支中实现,开发者Simon Willison借助Claude Code构建了一个交互式在线沙盒,通过运行在浏览器中的WASM版Redis子集,供用户体验这些新命令。Salvatore还撰文详细介绍了在AI辅助下开发此功能的历程。
加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash,一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈,通过单次前向传播并行“绘制”整个候选令牌块,而非逐个预测。系统平均实现了3.13倍的推理加速,峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统,通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测,显著优化了TPU硬件的利用效率。
倍耐力与瑞典科技公司Univrses合作,持有其30%股权,以强化Cyber Tyre智能轮胎技术。该系统将传感器集成于轮胎内部,结合外部摄像头和AI计算机视觉,使车辆能精确感知自身位置并实时应对环境变化。2025年,双方在意大利普利亚大区启动道路监测试点,利用轮胎数据与视觉技术构建持续更新的道路地图。该技术仍处概念验证阶段,但已进入深入开发,未来轮胎有望成为互联出行中的重要数据源。
迪士尼内部上线AI使用看板,追踪员工调用Claude的频率和token消耗。数据显示,一名员工在9个工作日内调用Claude约46万次,平均每1.7秒一次。与此同时,迪士尼正裁员约1000人。硅谷正流行“tokenmaxxing”文化,比拼AI token消耗量。Meta内部统计显示,其8.5万名员工在30天内消耗了60万亿token,价值约900亿美元;Uber的年度34亿美元AI预算在4个月内耗尽。报告显示,Claude用户中非程序员用途已超半数。
AI领域出现“蒸馏攻击”现象,即利用GPT-4等闭源模型的输出训练更小的开源模型。这引发了关于知识产权与创新平衡的激烈争论。支持者视其为技术民主化途径,反对者则谴责其侵犯版权并可能损害模型质量。目前,部分开源模型性能已快速逼近顶级闭源模型,迫使行业重新审视数据使用边界与合规框架。
关联讨论 1 条X:Nathan Lambert (@natolambert)