精选72
作者指出,AI预训练正经历从“下一个词预测”到“世界建模”的根本性范式转变。世界模型的核心是预测给定行动后的下一个物理状态序列,本质上是可学习的物理模拟器,并将视觉置于首位。相比之下,当前主流的视觉语言模型本质是语言优先,视觉是次要输入。生物智能中视觉处理占据皮层计算的主导地位,是连接大脑、动作与物理世界的高带宽通道。作者以猿类为例,证明强大的物理智能可独立于高级语言存在。他预测,2026年大型世界模型将为机器人技术和多模态AI奠定真正基础,而YouTube等平台的海量视觉数据将远超文本规模,推动这一新范式发展。
推荐理由:Jim Fan 把世界模型定义为第二次预训练范式转移,核心论点是视觉优先而非语言优先,这个框架对做机器人和多模态的人是真正的路线判断,不是又一篇水文。