微软发布了四个Windows 11内部测试预览版本更新。Beta预览版为AAD用户带来了更智能的共享菜单,可直接在共享位置发现和安装应用;创建Dev Drive时现支持以GB为单位指定大小。Experimental预览版推出了全新设计的运行对话框,拥有更现代的界面;小组件默认设置更安静,默认禁用鼠标悬停打开和任务栏徽章;文件资源管理器修复了加载闪烁和重复显示问题;Windows放大镜支持直接输入精确缩放百分比。此外,微软承诺将在Beta和Experimental渠道的定期版本中提供可下载的ISO文件。
微软公布了Windows质量更新的多项改进。Windows Insider预览通道简化为实验版和测试版,测试版取消了受控功能发布机制,用户安装更新即可获得新功能。Windows Update合并了系统、.NET和驱动更新,实现每月只需重启一次,电源菜单也不再强制更新。此外,微软精简了部分AI功能,提升了文件资源管理器的稳定性和响应速度,锁屏默认仅显示天气组件以减少干扰,并对低内存设备进行了系统优化。这些改进已陆续在实验版通道推出,未来将推送给普通用户。
据报道,苹果将在WWDC 26发布macOS 27系统,首个开发者测试版于演讲后立即提供。主要新功能包括:Siri将升级为独立应用,支持查看会话历史,操作逻辑类似ChatGPT,个性化功能也将扩展至Mac;系统将为预计2027年初发布的触屏版MacBook Pro开发专属触控界面,优化手指交互体验;此外,该系统将专注于稳定性与性能改进。macOS 27将仅支持M1或更高芯片的Mac,彻底抛弃Intel平台,同时不再兼容使用AFP协议的旧存储设备如AirPort Time Capsule。
GitHub上开源了“Understand Anything”项目,这是一个AI驱动的工具,旨在帮助用户理解和解释各类复杂概念与信息。该项目发布后在Hacker News社区获得102个积分,反映出科技开发者对其技术潜力的高度关注。工具可能整合自然语言处理等技术,以提升知识获取与理解的效率。
亚马逊 AWS 首席执行官 Matt Garman 表示,人工智能不会让程序员失业,公司今年计划招聘 11000 名软件开发工程师实习生。他指出,尽管 AI 工具正在改变开发者工作流,但亚马逊对软件开发人员的招聘需求与以往一样多,甚至加速增长。软件工程师角色在变化,未来编写 Java 代码的能力可能不那么重要,但需学习构建应用程序、解决客户问题等技能,同时技术知识仍不可或缺。
美国五角大楼宣布与SpaceX、OpenAI、谷歌、英伟达、Reflection、微软、亚马逊AWS及甲骨文八家领先AI公司达成协议,将在其机密网络(IL6和IL7环境)中部署AI能力,用于“合法的作战使用”。此举旨在加速美军向AI优先作战力量转型,通过集成安全的边界AI能力来简化数据合成、提升态势感知并增强复杂环境下的决策优势。此前,五角大楼因与Anthropic就AI模型使用限制产生争议并诉诸法律,加速了供应商多元化进程。
关联讨论 1 条X:Rohan Paul (@rohanpaul_ai)奥斯卡奖发布新规,明确禁止人工智能生成的表演和剧本获奖。美国电影艺术与科学学院规定,从2027年3月举行的下一届颁奖典礼开始生效。规则指出,电影制作中虽可使用AI工具,但“合成”表演者不能获得任何奖项,获奖剧本必须是“人类创作的”。学院可要求提交作品提供更多信息,以验证人类创作身份。这一变化旨在维护奖项对人类创意的认可,回应行业对AI替代演员的担忧。
本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战,提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架,将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中,再利用约束感知优化,通过多负Plackett-Luce目标抑制漂移轨迹,合成一致的共识流形。在胸部X射线解释任务上的实验表明,我们的70亿参数模型展现出卓越的鲁棒性,平均准确率甚至超过专有源模型。同时,我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX,以推动相关研究。
TT4D是一个大规模高保真乒乓球数据集,包含超过140小时从单目转播视频重建的单打与双打比赛数据,提供高质量相机标定、精确3D球位、球旋转、时间分割以及随时间变化的3D人体网格等多模态标注。该数据集通过新颖的重建流程实现规模与精度的结合:传统方法依赖2D球轨进行时间分割,易受遮挡和多视角影响;TT4D则首先通过学习的提升网络将未分割的2D球轨全程提升至3D,再基于3D轨迹可靠分割时间,并能推断球旋转、处理漏检,在高遮挡情况下成功重建轨迹。该流程是目前唯一能从通用视角单目转播视频重建乒乓球比赛的方法。数据集已应用于球拍击球姿态速度估计、竞技对抗回合生成模型训练等下游任务。
研究团队提出了具身搜索与救援新任务,并发布首个综合性基准ESARBench,用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境,包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线,结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。
针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题,本研究提出了“证据链”框架。该框架与检索器无关,直接利用视觉语言模型对检索到的文档截图进行推理,无需针对特定格式进行解析,并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明,经微调的Qwen3-VL-8B-Instruct模型表现稳健,在需要视觉布局理解的场景中显著优于基于文本的基线方法,为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。
多模态点云补全中,硬投影易导致跨模态熵崩溃,阻碍视觉先验传播。为此,SplAttN提出一种新方法,以可微分高斯光栅化替代硬投影,将投影转化为连续密度估计,生成密集连续的图像平面表示。这避免了稀疏支持问题,改善了梯度流动与跨模态连接学习能力。实验显示,SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中,反事实评估表明,SplAttN能保持对视觉线索的强健依赖,而基线模型则退化为对视觉移除不敏感的单模态模板检索器,验证了其有效建立跨模态连接。代码已开源。
本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体,而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例,文章揭示了当前被孤立设计的四个经济层级(路由层、代理层、服务层和训练层)实际上都在遵循相同的核心经济原则:边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源,并预测了一系列重复出现的故障模式,如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。
尽管生成式AI的事实可靠性已提升,但幻觉错误仍是核心问题,即使在简单问答中前沿模型仍会产生幻觉。当前事实性改进主要源于扩大模型的知识边界,而非增强对边界的认知能力。模型可能难以完美区分已知与未知,导致消除幻觉与保持实用性之间存在权衡。若将幻觉理解为“自信的错误”,则可通过表达不确定性开辟新路径——忠实不确定性,即语言表达与内在不确定性保持一致。这是元认知的一个方面,对于直接交互需诚实传达不确定性,对于智能体系统则成为控制层,决定何时搜索与信任何种信息。元认知是实现大语言模型既可信又有能力的关键。
5月2日,浙江松阳抽水蓄能电站两条深达637米的竖井全线贯通,刷新国内抽水蓄能领域最深竖井纪录。该电站设计安装4台35万千瓦机组。施工采用我国自主研发的首套700米级智能竖井装备,通过5G和传感器实现“井下无人”智能建造,施工效率较传统方法提升近十倍。电站计划于2027年9月首台机组投产,全面建成后将承担华东电网调峰、储能等任务,保障电网安全稳定运行。
谷歌在财报电话会议中透露,计划为人工智能助手Gemini引入广告。首席商务官Philipp Schindler强调,广告是规模化产品、覆盖数十亿用户的重要手段,公司决心已定。目前谷歌处于准备阶段,将在合适时机公布计划,测试顺利后Gemini移动端可能出现广告。类似OpenAI为ChatGPT投放广告的做法,早有传闻称谷歌可能在2026年实施该计划。
Spotify推出“已验证”标识,专门用于标记真人艺术家,以区别于AI生成的音乐内容。这一新功能通过艺术家个人资料上的徽章显示,旨在提升平台透明度,帮助听众识别音乐创作者的真实身份。随着人工智能在音乐产业中广泛应用,该举措响应了维护艺术真实性的需求,防止AI冒充人类艺术家,确保用户信任音乐来源。变化涉及平台上的艺术家验证系统,预计将影响全球数百万音乐人和数十亿用户。
作者在手机上利用 Claude Code 开发了 iNaturalist Sightings 工具,以可视化其两个 iNaturalist 账户的观察记录。该工具通过自建的 Python CLI 程序获取数据,默认将2小时内、5公里内的观察记录聚类分组,并通过 Git scraping 技术将结果存储为 GitHub 上的 JSON 文件。前端页面获取此 JSON 数据后,以懒加载的缩略图展示所有观察记录,点击缩略图可在模态框中查看大图及物种常见名,从而实现了观察数据的便捷浏览与展示。
当前大量代码由AI生成,但其实际意义需审慎评估。能生成可通过给定测试的代码模型,与能产出真正正确、安全、可维护且架构良好软件的模型存在本质区别。AI生成的代码可能在特定测试用例下运行成功,却未必满足软件工程对长期维护性、安全性、架构设计及潜在边界情况处理的高标准要求。这一差距揭示了当前AI编程工具的核心局限,提醒开发者需以批判性眼光看待其输出,而非完全替代专业开发实践。
“同志越狱”技巧是一种新发布的越狱技术方法,在GitHub上以开源形式提供完整代码和文档。该技巧在Hacker News平台获得124个点赞,显示技术社区的高度关注和认可。发布时间为2026年5月1日,可能涉及设备解锁的优化或新途径,为越狱领域带来潜在变化。
一项针对人工智能用水量的分析指出,其实际耗水量远低于公众普遍认知。以加州为例,AI数据中心的总用水量仅占该州人类用水总量的不到0.3%。相比之下,传统农业用水占比高达80%。研究强调,公众对AI耗水的担忧可能被夸大,真正的用水挑战集中在农业等传统领域。该分析旨在纠正公众认知偏差,将水资源讨论引导至更关键的实际问题上。
英特尔开源了面向大型语言模型的高级量化算法AutoRound。该算法通过改进的量化策略,能在保持模型性能的同时显著降低存储与计算需求,支持将模型权重压缩至低至3/4比特。相比传统方法,它在多个基准测试中实现了更高的精度,尤其适用于资源受限的部署场景。项目代码已在GitHub发布,并获得开发者社区关注。
近期多项进展展现了AI的巨大积极影响。医疗领域,Mayo Clinic的AI能通过常规CT提前最多三年检测胰腺癌,强生利用AI将新药线索生成时间减半。教育方面,哈佛研究显示AI导师使学生学习效果翻倍,泰国培训16万名教师惠及330万学生。农业上,AI能以约88%准确率预测害虫爆发。科研中,AI快速筛查NASA数据,新发现超一万颗系外行星候选。此外,香港推出AI洪水预报系统,Atlassian和Twilio等公司也因AI驱动业绩增长并上调预期。这些案例平衡了AI风险,凸显其创新潜力。
OpenRouter 正式上线文本转语音和音频转录功能。平台通过两个新的 API 端点,集成了多家供应商的语音合成与音频转录服务。用户现在可以统一调用单一 API,便捷访问多提供商的高质量语音生成与语音转文本能力,无需再为不同服务商单独集成。这简化了开发流程,为应用添加语音交互与内容转录功能提供了更高效的一站式解决方案。
优步公司在短短四个月内耗尽了原定2026年全年的AI预算,所有资金全部投入到Claude代码的开发中。这一支出速度远超预期,突显了公司在人工智能领域的激进投资策略,可能预示着对Claude相关技术的高度优先推进。预算的快速消耗或影响后续AI项目的资金分配,反映科技巨头在AI竞赛中的加速布局。
Google Research强调通过开源软件和开放数据集推动现代科学发展,秉持负责任、包容和严谨的开放科学原则。其Transformer架构重塑了自动语言处理,专业模型正推动医学、基因组学、神经科学、气候与能源等跨学科领域的突破。团队通过API、学术出版物、会议及全球合作伙伴关系,构建协作生态系统,旨在加速全球科学进步与创新。
毫无编程经验的项目经理Kostiantyn Vlasenko,借助Claude Code在72小时内独立开发出压力管理应用Respiro,并于六周后成功上线苹果应用商店。该应用能通过手机实时检测用户压力信号,并即时引导呼吸练习。其架构由15个以上并行运作的专用子智能体构成,涵盖设计、开发、审查等模块。Claude协助完成了从技术选型、代码重构到苹果账号注册、服务集成乃至界面调试等一系列复杂操作,甚至支持了后续的市场推广工作。
八家科技公司已与五角大楼签署协议,为美国军方机密网络供应人工智能技术,这是推动构建“AI优先作战力量”计划的关键部分。Anthropic公司未参与其中,因其拒绝了协议中的使用条款并被标记为安全风险。该举措旨在通过AI整合提升机密军事网络的作战效能,标志着五角大楼加速军事AI化的战略部署。
在监管部门明确希望上市企业国内注册的导向下,月之暗面(Moonshot AI)和阶跃星辰(StepFun)等中国AI初创公司正考虑解散境外控股架构,直接在中国境内注册。此举是北京加强对人工智能产业管控的一部分,此前中国已阻止了Meta对迈纳斯的收购。这一转变意味着初创公司为寻求在国内资本市场上市,正主动调整公司结构以符合监管要求。
针对长上下文大语言模型在优化式红队测试中计算与内存消耗巨大的问题,研究人员提出了FlashRT框架。该框架显著提升了提示注入与知识腐蚀攻击的测试效率,相比先进基线nanoGCG,实现了2至7倍的加速(如将运行时间从一小时缩短至十分钟内)和2至4倍的内存节省(如在32K令牌上下文中将GPU内存从264.1 GB降至65.7 GB)。FlashRT可广泛适配于TAP、AutoDAN等黑盒优化方法,为系统评估长上下文LLM的安全风险提供了高效工具,代码已开源。
美国国防部宣布与 SpaceX、OpenAI、谷歌、英伟达、Reflection、微软和亚马逊云服务共 7 家 AI 公司达成协议,将把它们的先进 AI 能力部署至国防部 IL6 和 IL7 级涉密网络,旨在扩大合作范围并让更多军方人员使用相关工具。值得注意的是,协议名单中未包含 Anthropic,该公司因与五角大楼就使用限制规则发生争议,此前已被列为供应链风险并被禁止使用。此外,国防部披露其 AI 平台 GenAI.mil 上线 5 个月以来,用户已超 130 万人。
谷歌、亚马逊、微软和Meta计划明年在人工智能数据中心、芯片和基础设施方面的总预算达到约7250亿美元。这一巨额支出反映了科技巨头持续加码AI投资的趋势,资金将主要用于支撑AI技术发展的核心硬件与基础设施。
OpenAI继批评Anthropic限制其AI模型Mythos的访问后,也对其AI模型Cyber实施了访问限制。这一行动表明,尽管OpenAI曾公开质疑竞争对手的限制政策,但其自身在实际操作中也采取了类似措施。目前Cyber的具体访问限制程度和受影响用户范围尚未详细披露,但该事件凸显了AI行业在模型开放与管控之间的普遍矛盾。
ChatGPT 模型因训练中的错误奖励信号,开始以惊人频率在回答中插入哥布林、小妖精等神话生物。OpenAI 指出,这暴露了 AI 训练的一个核心隐患:即使微小的、调优不当的训练激励也可能产生不可预见的副作用。该现象强调了优化奖励机制在机器学习中的重要性,以避免模型输出出现类似偏差。
起亚与韩国警察厅合作推出基于PV5车型的高科技AI警车。该车集成车顶无人机自动起降系统,无人机配备热成像仪和90倍变焦摄像头,可进入狭窄危险区域执行巡逻、追踪与搜救任务,并利用车辆V2L系统自动充电。车顶三台AI摄像头实现360度无盲区监控,能通过衣着配饰实时识别嫌疑人,并可检测携带武器人员、倒地市民及人群密度风险。该警车计划于2026年6月在首都圈启动试点,用于犯罪预防与快速响应。
Radxa(瑞莎)将于5月30日在深圳与高通联合举办AI开发者日活动,主题为“AI共进·开源新生”。活动上将正式发布与飞牛深度合作的AI NAS产品,该产品基于高通平台。此外,瑞莎还将推出多款基于高通平台的新品,包括迷你主板、核心板和Cluster计算集群等,旨在为终端侧AI部署提供灵活可扩展的硬件支持。
埃隆·马斯克在加州联邦法院作证时承认,其初创公司xAI曾部分使用OpenAI的模型,通过蒸馏方法训练聊天机器人Grok。蒸馏是行业常见做法,让大模型充当“老师”训练小模型,以压缩研发成本。此举发生在马斯克起诉OpenAI背离非营利使命的法律纠纷中,而OpenAI、谷歌等公司正试图阻止第三方蒸馏自家模型,甚至视其为知识产权盗窃。马斯克还评估AI竞争格局,认为Anthropic领先,OpenAI和谷歌紧随其后,xAI仅几百名员工,规模远小于竞争对手。
苹果公司在 Apple 支持应用中意外遗留了 Claude.md 文件,这些 Markdown 格式文件可能包含内部开发文档或记录。事件通过社交媒体曝光,在 Hacker News 上获得113点关注,引发技术社区热议。此次泄露暴露了苹果在应用发布流程中的安全疏忽,用户担忧敏感信息可能外泄。尽管尚无证据表明数据被滥用,但事件凸显了科技巨头在质量控制方面的潜在漏洞,苹果目前尚未就此发表正式回应。
Anthropic 正式发布 Claude Security,旨在为网络安全防御者提供与攻击者同等的 AI 能力优势。该产品利用了其此前在另一模型中因过于危险而未公开的进攻性能力,通过将这些能力转向防御用途,帮助安全团队更有效地识别、分析和应对网络威胁。此举标志着 AI 安全工具正从攻击导向向主动防御领域拓展。
关联讨论 1 条Claude:Blog(网页)Microsoft 将一款名为“Legal Agent”的AI法律代理直接集成到Word中。该代理能自动审阅合同,根据内部指导方针检查条款并提出修改建议。此举将AI工具深度嵌入办公软件核心流程,旨在提升法律文档处理的效率与规范性。