美国五角大楼宣布与SpaceX、OpenAI、谷歌、英伟达、Reflection、微软、亚马逊AWS及甲骨文八家领先AI公司达成协议,将在其机密网络(IL6和IL7环境)中部署AI能力,用于“合法的作战使用”。此举旨在加速美军向AI优先作战力量转型,通过集成安全的边界AI能力来简化数据合成、提升态势感知并增强复杂环境下的决策优势。此前,五角大楼因与Anthropic就AI模型使用限制产生争议并诉诸法律,加速了供应商多元化进程。
关联讨论 1 条X:Rohan Paul (@rohanpaul_ai)Pi创始人Mario Zner提出,未来的软件将不再是静态的、依赖官方更新的产品。他认为,以Pi为代表的AI编程代理展示了新的方向:软件应能根据每个用户的特定需求,进行动态的自我改造和扩展。Pi本身是一个极简且可自我修改的AI编程代理,同时也是个人AI助手OpenClaw的核心引擎,其设计理念正体现了这种向个性化、自适应系统演进的关键趋势。
算法工程师周远因AI系统“百变怪”能自主完成设计、调参等工作而被裁员。失业后,他受启发开发了一款元游戏系统C.O.L.A.,允许玩家通过自然语言描述生成个性化游戏。产品上线后迅速获得百万用户,形成了活跃的创作者经济生态。周远最终领悟到,AI作为封闭系统需要人类注入“上下文”(信息/负熵)来获得生命力,而真正的创造源于热爱与主动选择。
OpenAI Codex 推出Pets功能,提供8种内置宠物并支持自定义。用户可通过设置、输入/pet或命令面板启用。其核心价值在于“环境感知”:宠物悬浮层能持续显示当前活跃线程、Codex运行状态(如运行中或等待输入)及进度提示,充当异步任务的环境指示器,使后台长耗时任务保持可见。自定义宠物通过hatch-pet skill实现,该skill能基于用户项目语境生成专属宠物,表明Pets是接入Codex skill体系的可扩展功能,而非简单装饰。官方推文确认该功能已集成,用户可使用/pet指令唤醒宠物。
一个熟练掌握数据结构和算法的高手,和一个水平一般但认真写Docstring的人,谁用AI写代码更快更好?答案可能让你不舒服:后者赢面更大。因为AI辅助编程的核心…
奥斯卡奖发布新规,明确禁止人工智能生成的表演和剧本获奖。美国电影艺术与科学学院规定,从2027年3月举行的下一届颁奖典礼开始生效。规则指出,电影制作中虽可使用AI工具,但“合成”表演者不能获得任何奖项,获奖剧本必须是“人类创作的”。学院可要求提交作品提供更多信息,以验证人类创作身份。这一变化旨在维护奖项对人类创意的认可,回应行业对AI替代演员的担忧。
本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战,提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架,将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中,再利用约束感知优化,通过多负Plackett-Luce目标抑制漂移轨迹,合成一致的共识流形。在胸部X射线解释任务上的实验表明,我们的70亿参数模型展现出卓越的鲁棒性,平均准确率甚至超过专有源模型。同时,我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX,以推动相关研究。
TT4D是一个大规模高保真乒乓球数据集,包含超过140小时从单目转播视频重建的单打与双打比赛数据,提供高质量相机标定、精确3D球位、球旋转、时间分割以及随时间变化的3D人体网格等多模态标注。该数据集通过新颖的重建流程实现规模与精度的结合:传统方法依赖2D球轨进行时间分割,易受遮挡和多视角影响;TT4D则首先通过学习的提升网络将未分割的2D球轨全程提升至3D,再基于3D轨迹可靠分割时间,并能推断球旋转、处理漏检,在高遮挡情况下成功重建轨迹。该流程是目前唯一能从通用视角单目转播视频重建乒乓球比赛的方法。数据集已应用于球拍击球姿态速度估计、竞技对抗回合生成模型训练等下游任务。
研究团队提出了具身搜索与救援新任务,并发布首个综合性基准ESARBench,用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境,包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线,结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。
针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题,本研究提出了“证据链”框架。该框架与检索器无关,直接利用视觉语言模型对检索到的文档截图进行推理,无需针对特定格式进行解析,并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明,经微调的Qwen3-VL-8B-Instruct模型表现稳健,在需要视觉布局理解的场景中显著优于基于文本的基线方法,为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。
多模态点云补全中,硬投影易导致跨模态熵崩溃,阻碍视觉先验传播。为此,SplAttN提出一种新方法,以可微分高斯光栅化替代硬投影,将投影转化为连续密度估计,生成密集连续的图像平面表示。这避免了稀疏支持问题,改善了梯度流动与跨模态连接学习能力。实验显示,SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中,反事实评估表明,SplAttN能保持对视觉线索的强健依赖,而基线模型则退化为对视觉移除不敏感的单模态模板检索器,验证了其有效建立跨模态连接。代码已开源。
本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体,而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例,文章揭示了当前被孤立设计的四个经济层级(路由层、代理层、服务层和训练层)实际上都在遵循相同的核心经济原则:边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源,并预测了一系列重复出现的故障模式,如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。
尽管生成式AI的事实可靠性已提升,但幻觉错误仍是核心问题,即使在简单问答中前沿模型仍会产生幻觉。当前事实性改进主要源于扩大模型的知识边界,而非增强对边界的认知能力。模型可能难以完美区分已知与未知,导致消除幻觉与保持实用性之间存在权衡。若将幻觉理解为“自信的错误”,则可通过表达不确定性开辟新路径——忠实不确定性,即语言表达与内在不确定性保持一致。这是元认知的一个方面,对于直接交互需诚实传达不确定性,对于智能体系统则成为控制层,决定何时搜索与信任何种信息。元认知是实现大语言模型既可信又有能力的关键。
5月2日,浙江松阳抽水蓄能电站两条深达637米的竖井全线贯通,刷新国内抽水蓄能领域最深竖井纪录。该电站设计安装4台35万千瓦机组。施工采用我国自主研发的首套700米级智能竖井装备,通过5G和传感器实现“井下无人”智能建造,施工效率较传统方法提升近十倍。电站计划于2027年9月首台机组投产,全面建成后将承担华东电网调峰、储能等任务,保障电网安全稳定运行。
谷歌在财报电话会议中透露,计划为人工智能助手Gemini引入广告。首席商务官Philipp Schindler强调,广告是规模化产品、覆盖数十亿用户的重要手段,公司决心已定。目前谷歌处于准备阶段,将在合适时机公布计划,测试顺利后Gemini移动端可能出现广告。类似OpenAI为ChatGPT投放广告的做法,早有传闻称谷歌可能在2026年实施该计划。
Spotify推出“已验证”标识,专门用于标记真人艺术家,以区别于AI生成的音乐内容。这一新功能通过艺术家个人资料上的徽章显示,旨在提升平台透明度,帮助听众识别音乐创作者的真实身份。随着人工智能在音乐产业中广泛应用,该举措响应了维护艺术真实性的需求,防止AI冒充人类艺术家,确保用户信任音乐来源。变化涉及平台上的艺术家验证系统,预计将影响全球数百万音乐人和数十亿用户。