安全工程师仅花费12美元注册域名并编辑维基百科词条,虚构了一场纸牌游戏的2025年世界冠军赛事。多款具备联网搜索功能的AI聊天机器人将此虚假信息当作事实传播,暴露了AI在检索增强生成(RAG)中的核心漏洞:模型无条件信任网络检索结果,无法甄别信息来源真伪。此次低成本攻击揭示了AI在信息可信度与数据溯源方面存在重大隐患,涉及检索层误导、训练语料污染及智能体被操控执行恶意操作等多重风险。
特斯拉FSD(监督版)车队行驶总里程已突破100亿英里,达到马斯克设定的关键数据里程碑,且数据收集速度大幅加快。特斯拉宣称其FSD安全性优于人类驾驶,但业内指出其统计口径与官方不一致,存在误导性,其奥斯汀自动驾驶出租车事故率约为人类驾驶员的四倍。马斯克已将无监督版FSD上线时间推迟至2026年第四季度。相比之下,Waymo已在多城运营L4级无人驾驶,并公布其重伤事故率比人类低90%。
苹果机器人团队高级工程经理伯努瓦・兰德里离职,跳槽至谷歌DeepMind。苹果正研发智能家居机器人,包括一款桌面机器人,外观类似加装机械臂的iPad,可执行基础任务并搭载全新Siri系统。苹果员工流失严重,机器人团队负责人去年已跳槽Meta,团队多名高级工程师相继离职,人才被Meta和谷歌以高薪挖走。
杨立昆在达沃斯论坛上尖锐指出,基于LLM构建智能体是“灾难的配方”,因其缺乏世界模型和因果性,无法可靠预测行动后果,导致现有框架陷入不断修补的困境。他长期主张,实现AGI需依靠JEPA架构和世界模型,让AI先理解物理规律。其团队最新论文通过SIGReg正则化器解决了JEPA的表征坍缩问题,使得小型世界模型能在单GPU上快速训练,隐空间天然编码物理规律,在机器人规划中效率远超大型模型。这并非否定生成式AI,而是为智能体发展开辟了更高效、更接近物理现实的新路径:未来智能体将是“懂物理的小世界模型”与“大语言接口”的结合。
全网都在吹的LeCun新论文,90%的解读都是错的。 他们说生成式AI是死路,说过去三年花的几百亿全白费了,说15M参数的小模型就能吊打万亿大模型。 这些全…
GPT Image 2 Prompt 用于创建一个儿童图画书的内页,主题为OpenAI的故事,以多页形式呈现。提示指定内页采用垂直格式、暖色调背景和多面板布局。插图风格为手绘儿童书风格,融合软质水粉、彩色铅笔和蜡笔纹理,强调可见纸张纹理、自然草图线条和圆润迷人角色。文本布局模仿真实图画书,关键词可能用颜色高亮,并包含小手绘装饰元素。整体设计旨在通过视觉叙事展现OpenAI的历程。
苏黎世联邦理工学院等机构研发了一款半自主探测机器人,旨在解决传统火星探测因通讯延迟和数据传输限制导致的效率低下问题。该机器人能自主往返多个目标点,利用小型精密仪器进行探测分析。测试显示,其完成多目标探测仅需12至23分钟,而人工操控需41分钟,且能高精度识别石膏、碳酸盐岩等关键岩石类型。这项技术未来将应用于月球、火星等深空探测任务,显著扩大勘测范围并高效搜寻生命痕迹。
摩根大通公开了其内部多智能体系统Ask David的完整架构,该模式在投资研究领域已得到验证。其核心与当前主流Agent架构高度一致:由一个监督智能体进行整体编排,多个专业子智能体分别处理检索、结构化数据和分析等任务,在最终输出前使用LLM-as-judge进行反思与质量把关,并引入人工干预作为最后一道准确性保障。这一模式在多个领域反复出现,表明可落地的多智能体系统的关键在于清晰的分工、监督、反思与人工兜底形成的闭环,而非简单堆叠模型,对企业级Agent开发具有重要参考价值。
文章指出“代理编码”是一个陷阱,认为过度依赖AI代理进行软件开发会导致代码质量下降、系统复杂性增加和开发者技能退化。核心论点是,AI代理目前缺乏真正的理解与创造力,其生成的代码往往存在隐藏缺陷,且使开发者脱离实际编程过程,长远来看会损害工程能力与软件可靠性。作者主张应将AI工具定位为辅助而非替代,保持人类开发者在关键设计与决策中的核心作用。
日本卫浴巨头TOTO的半导体陶瓷业务利润占比首次过半,成为集团主要利润支柱。在截至2026年3月的财年,该业务营业利润预计大增32%至270亿日元,占比达55%。其核心产品包括用于芯片制造的静电吸盘,良品率已从50%-60%提升至90%以上,营业利润率从五年前的9%跃升至超40%。激进投资基金Palliser Capital敦促TOTO加大对该业务的投资与披露,认为此举可能推动股价上涨55%。公司正将陶瓷技术延伸至芯粒集成等新领域,并与传统卫浴业务形成协同。
本周,DeepMind、Anthropic、Alibaba等实验室的论文共同显示,AI智能体正从聊天机器人转向可工程化、可审计的生产力系统。Agentic Harness Engineering将智能体支架转化为可观测的工程闭环,提升性能且优化可跨模型迁移。Alibaba的AgenticQwen-30B-A3B通过并行强化学习飞轮,在低激活参数下实现接近大模型的工具使用能力,重塑成本。RecursiveMAS革新多智能体通信,大幅降低消耗并提升效率。这些进展标志智能体系统正从实验阶段走向生产级工程,其工程化可能成为AI落地关键。
open-slide是一款专为AI agent设计的幻灯片框架,能将自然语言提示直接转化为精美的完整演示文稿。其核心在于将每页幻灯片构建为React组件,并在固定画布上工作,而非简单生成Markdown。框架内置多项agent技能:通过/create-slide指令一句话生成整套幻灯片;支持在浏览器中对元素添加评论,并由agent通过/apply-comments一键应用所有修改;同时集成演示模式、演讲者笔记和定时器,并可一键导出HTML或PDF。它兼容Claude Code、Cursor等多种编码agent,其意义在于将AI agent的能力从“生成文字”升级为“输出可直接呈现的最终成品”,填补了AI代理与真实生产应用之间的关键空白。
DeepClaude项目在GitHub上发布,它是一个结合了DeepSeek V4 Pro模型的Claude代码代理循环工具。该工具的核心优势在于显著降低了使用成本,其价格仅为原Claude方案的1/17,即便宜了约17倍。这一开源方案为开发者提供了一个高性能且极具成本效益的代码生成与处理替代选择。
OpenAI Codex推出Auto-review新模式,解决传统人工审批与完全放权两种治理范式的缺陷。该模式在智能体越界时,由独立AI代理审批,评估用户意图、运行环境、安全策略和动作影响。拒绝时提供理由,超一半情况主智能体能自行找到更安全替代方案。效果上,自动批准率达99.1%,将打扰人类频率降低约200倍,有效拦截多数攻击。但团队坦承局限:非确定性安全保证,不能防御策略性欺骗,是安全与速度的折中。
关联讨论 2 条OpenAI:Alignment 研究博客(RSS)X:Tibo (@thsottiaux)今日科技资讯聚焦多家巨头动态。苹果下一代iOS 27系统将重心转向AI,Siri将重塑为独立App并深度整合至相机。英伟达CEO黄仁勋称,其AI加速器在华市场份额已降至0%,并批评美国出口管制。华为公布了支持其5A通信技术的最新设备清单。小米MIX 5真全面屏手机曝光,将搭载磁吸镜头技术。此外,马斯克xAI的55万张GPU算力利用率仅11%;乘联会预测2026年中国纯电动车全球份额将达56%。
Anthropic CEO断言AI将在一年内完成所有代码编写。他指出,像Claude这样的AI系统已通过海量文本掌握了编程知识,而人类通常需花费数年学习。这意味着编程技能本身不再是核心竞争力,最难的技能已被AI掌握。未来的关键差距在于能否高效配置和运用这些“无所不知”的工具,而目前多数人尚未开始认真使用。因此,未来程序员的竞争力将转向善于“指挥”AI生成代码,而非亲自编写。
DeepMind CEO Demis Hassabis指出,最前沿的大模型(如Gemini)表现出“锯齿状智能”。他以与Gemini下棋为例,说明模型能通过思维链发现问题并搜索更好方案,但最终仍会执行明显的错误决策。这揭示了AI智能并非平滑提升,而是在某些方面敏锐,另一些方面存在严重缺陷。Hassabis认为,真正的突破或许不在于让模型更聪明,而在于如何打磨这种不均衡的智能,使其成为可靠工具。这一观点挑战了AI将线性逼近完美智能的常见叙事。
KinDER是一个针对机器人学习与规划中物理推理挑战的基准测试平台。它提供25个程序生成环境、兼容Gymnasium的Python库(含参数化技能与演示)及13个基线评估套件,涵盖任务与运动规划、模仿学习、强化学习等方法。平台聚焦五大核心挑战:基础空间关系、非抓握多物体操控、工具使用、组合几何约束和动态约束,剥离了感知与语言理解等复杂性。实验表明,现有方法在多数环境中表现不佳,揭示物理推理能力显著不足。此外,通过移动机械臂的实-仿-实实验验证了仿真与真实交互的对应性。KinDER已开源,旨在推动物理推理研究的系统化比较。
视频变分自编码器(VAE)通过隐空间建模提升生成效率,但重建优化未必改善生成性能。为此,本研究受预测性世界建模启发,提出预测性视频VAE(PV-VAE),引入统一的预测性重建目标。该方法在训练时随机丢弃未来帧,仅编码部分过去观测,并让解码器同时重建已观测帧与预测未来帧,从而使隐空间编码更具时间预测性的结构,增强对视频动态的连贯理解。在UCF101数据集上,PV-VAE相比Wan2.2 VAE收敛速度提升52%,FVD指标改善34.42。分析表明,该模型具有良好的可扩展性,其隐空间能有效捕捉时间连贯性与运动先验,在下游视频理解任务中也带来一致性能提升。
ARIS是一个开源自主研究框架,旨在通过对抗性多智能体协作机制提升长周期研究工作的可靠性。其默认配置要求执行模型推进研究,同时推荐由不同模型家族的评审者对中间成果提出批判性修订,以应对“看似合理但缺乏证据支持”的核心失效模式。框架包含三层架构:执行层提供可复用技能与工具;编排层协调多种工作流并路由至评审者;保障层则实施三阶段证据检查流程,包括完整性验证、结果与主张映射以及交叉审计。原型系统还包含一个需经评审批准的自改进循环。
针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。
本文通过“编排轨迹”研究LLM多智能体系统的强化学习,聚焦工作生成、委派、通信、聚合与终止等协同过程。研究提出三个技术轴心:涵盖并行加速等八类奖励设计;奖励可附着于从令牌到团队等八个单元,其中消息级反事实信用仍稀缺;编排学习分解为五项子决策。截至2026年5月4日,文献中尚未发现针对终止决策的显式强化学习方法。研究关联了学术方法与工业实践,指出公开部署规模与学术评估体系间存在差距,并开源了相关资源。
SVGS方法通过为单个高斯基元引入空间变化的颜色和不透明度,提升了基于高斯显式表示的多视图重建能力。该方法实现了双线性插值、可移动核函数和微型神经网络三种空间变化函数,并采用2D高斯面元作为基元。实验表明,所有函数均优于基线,其中最佳的可移动核函数在多个数据集上实现了卓越的新视图合成性能,同时保持了高质量的几何重建。该方法尤其适用于现实世界中纹理复杂而几何相对简单的常见场景。
本文提出HeavySkill新视角,将深度思考视为智能体协同框架的内化核心技能,而不仅是最小执行单元。该技能被定义为“并行推理后总结”的两阶段流程,可内化于模型参数中,驱动协同框架解决复杂任务。实证研究表明,HeavySkill在多个领域均优于传统的Best-of-N策略,更强的大语言模型甚至能接近Pass@N性能。关键发现是,该技能的广度与深度可通过强化学习进一步扩展,这为大型语言模型内化复杂推理、减少对外部脆弱协同层的依赖提供了可行路径。
据供应商Connect Tech消息,因LPDDR4内存短缺,英伟达将提前终止部分Jetson产品线供应。受影响型号包括Jetson TX2 NX、TX2i、AGX Xavier 32GB工业版及Xavier NX(8GB/16GB)。相关型号已被标记为“不可取消、不可退货”,新订单须在7月1日前提交,现有订单将于7月15日转为不可退状态,最后发货日期为2025年7月15日。采用LPDDR5内存的新款Orin和Thor产品仍可采购,但价格已上涨。
多数公司无法有效利用AI,核心障碍并非技术,而是企业自身目标模糊、战略混乱且缺乏清晰的业务流程描述。AI擅长执行明确指令,但大多数公司处于“混乱黑盒”状态,无法清晰定义目标、工作流与衡量指标。只有少数具备高度自我认知和组织纪律的公司能真正借助AI提升竞争力。企业应首先审视自身是否具备让AI有效协助的清晰内部状态,而非盲目追求技术应用。
作者指出欧洲正犯下急需纠正的严重战略错误,导致竞争力下降与生活质量结构性下滑。核心批评聚焦于能源政策存在根本缺陷,且缺乏可信解决方案。在科技与经济层面,欧洲缺乏雄心与清晰规划:既无解决能源问题的可靠战略,也未大力建设支持AI发展的数据中心,更无培育全球性科技公司的计划。尽管欧盟委员会试图微调AI法案,但这几乎是唯一迎合企业需求的让步。相比之下,中美在核能、太阳能及储能领域大力投入,而欧洲的应对方式却显得摇摆、模糊且极不严肃。
本文提出BIGMAS系统,通过构建针对特定问题的小型专家智能体图,以提升大语言模型在多步骤复杂任务中的推理可靠性。该系统让多个智能体在一个共享工作空间中进行读写协作,并由独立控制器监控全局状态、规划下一步行动。在涵盖算术表达式搜索和多步骤规划的3个谜题任务上,对6个前沿模型进行的测试表明,该方法在所有模型和任务上均显著提升了性能,例如Six Fives任务准确率从12%提升至30%,伦敦塔任务从57%提升至93%。这证明通过优化多智能体系统结构,而非仅依赖延长单一模型的思考,能有效增强大语言模型的推理能力。