2月4日
02:31
Jim Fan@DrJimFan
精选72
从"下一个词预测"到"世界建模":AI预训练的第二范式

作者指出,AI预训练正经历从“下一个词预测”到“世界建模”的根本性范式转变。世界模型的核心是预测给定行动后的下一个物理状态序列,本质上是可学习的物理模拟器,并将视觉置于首位。相比之下,当前主流的视觉语言模型本质是语言优先,视觉是次要输入。生物智能中视觉处理占据皮层计算的主导地位,是连接大脑、动作与物理世界的高带宽通道。作者以猿类为例,证明强大的物理智能可独立于高级语言存在。他预测,2026年大型世界模型将为机器人技术和多模态AI奠定真正基础,而YouTube等平台的海量视觉数据将远超文本规模,推动这一新范式发展。

具身智能多模态大佬观点

推荐理由:Jim Fan 把世界模型定义为第二次预训练范式转移,核心论点是视觉优先而非语言优先,这个框架对做机器人和多模态的人是真正的路线判断,不是又一篇水文。
10月14日
13:33
10月7日
09:10
9月29日
21:41
9月26日
04:22
9月24日
00:57
9月18日
06:35