Jul 11, 2025

再写一篇关于sora及世界模型的吧，纯文字

这些天的讨论太多了，以至于Lecun又在社交媒体上开始“乱喷”了。其实，在通向AGI的可能之路上，谁都是无知的小孩，在做着一个又一个的实验而已。

关于世界模型

Sora出来后，很多人说，这就是世界模型，但是也有很多的批评说这并不是，其中最具代表性的就是Meta的Lecun了，为了支持自己的观点，Lecun还给出了自己认为的世界模型的定义。当然，正如Lecun自己所言，太多的甚至都没为机器学习做出过任何贡献的人都会去批评他。一方面，他说的当然有道理，但是另一方面，恰恰说明AI对社会的当前影响和潜在影响，全民讨论，每个人都有自己的观点，其实很正常。

况且，如前所说，在这条通向未来的道路上，其实，没有权威。

回到“世界模型”，Lecun的定义虽然给出的只是简单的公式，但是背后涉及到深度增强学习方面的基础知识，一两句话确实也解释不清楚，而我对于是该预测对象的下一时刻状态，还是该预测环境的下一刻状态，保留自己的看法，再说，对象和环境，在一个复杂的世界中，有点难以定义清楚。

我自己设想的“世界模型”，更像微观经济学里的“市场”，有许多的市场参与者（主体，对象，或者直接对应到这个环境，AI或者智能体），每一时刻的预测其实都是所谓的一般均衡。

如果从这个角度看，其实，sora和Meta刚推出的V-JEPA模型，根本不像Lecun说的差别那么大：

OpenAI团队为什么叫sora为simulator，仿真器。 每一次的生成，简单而言都会有两部分：环境（场景），对象（比如人，狗，天气，等等），如果不要把自己作为生成视频的观察者，或者说，生成的视频其实就是模型自己作为客体，对各种对象行为的预测，以及这些行为对环境造成的变化。所以，sora本质上还是个预测模型，只是通过生成的方式来显化出来。
Meta刚推出的V-JEPA模型。 去掉所有花哨的东西，其实这个模型就是通过对于视频里的对象进行遮盖（masking），然后对遮盖部分进行预测，通过大量数据的训练，希望模型能够产生一些具体的概念，可能是物体，可能是连续的动作，等等。所以，实际上这两个模型都是基于对对象或者环境的预测，不是吗？训练模型的结构当然有区别，但是更多的区别只在于，一个通过生成显化出来，一个只是预测。
Lecun的批评。 Lecun批评的是认为sora这种基于像素级的预测方式，死路一条，因为预测结果并不稳定，这个当然有道理。但是，一，sora也并非基于像素级，而是通过transformer把平面加时间序列的信息变成一个个spacetime patches，其实patch就可以等同于token；二，V-JEPA的预测，涉及到masking，涉及到识别，以及一系列其他复杂的运算，也需要encoding，decoding，这难道就完全不是“像素级”了吗？所以，没有清晰的线能分清楚的。三，预测，其实都是基于encoding后的空间里的，生成也是在这个空间里diffusion，然后再decoding的。所以，我部分认同Lecun说的，但是要抬杠，谁都可以。
殊途同归。 其实都是尝试，一条路走不通了，再换一条呗。只是，商业利益和“争第一”的胜负心，把大家都停在杠头上了。

Sora的应用场景是文生视频吗？

沿着上一节所说，答案显然是否定的。Sora本质上应该是一个世界的观测者和预测者，视频生成功能只是副产品。

但是，太多人看了生成的视频效果后，惊呼：AGI！殊不知，且不说现在的sora离AGI还差着十万八千里，sora的目的也不是成为AGI，而是为AGI服务，简单讲，投喂数据。

虽然关于AGI的定义依然很不统一，但是AGI至少要具备决策能力，至少要“理解”任务，并稳定的执行好任务。Sora叫做仿真器，就是模拟出一个“世界”：环境和对象，在学习到的“规则”之下“预测”对象的运动与环境的变化，把这些数据给到“AGI”，通过复杂的强化学习，看“AGI”是否真的能出来。

现在的状态是，特斯拉为代表的自动驾驶研发中，生成的“世界”足够覆盖绝大多数场景，甚至对于一些现实中出现状况的场景，还能复现。但是如果用sora去生成“世界”，训练自动驾驶模型，估计胆子再大的人，都不敢用。这只能说目前人类预设规则的引擎更有效，sora还需要进步，但这根本不是批评sora的理由。人类干预规则这条路已经几乎走不下去了，我们只能寄希望于sora这类模型了。

所以，回到视频生成的副产品功能上讲，指望sora这种模型马上达到好莱坞大片的质量，当然不现实。但是，在实务中，即使只是一部分的引入，都足以优化流程，产生不可估量的效果。

现在，模型可以取代的是低质量的视频自媒体内容。

那么，sora的问题在哪里？

一个很有意思的事情是，因为训练“AGI”缺太多的数据，所以需要sora这类仿真器去生成数据，而sora最大的局限，也是，缺数据。

在sora的技术报告里，数据部分用了简单的几句话就带过了。这代表数据才是最重要的部分。毫无疑问，OpenAI模型领先的原因主要是两点：1、人够“卷”；2、数据质量够好。

另一方面，现在训练的数据，无论是图像，还是视频，都是二维的，没有空间信息。光学二维数据的sora，也很难理解三维世界里的“物理”。所以，数据缺，还是奇缺。但只要证明scaling law有效，那就想方设法继续扩规模，尽可能喂更多数据。

最后，其他家能快速跟进吗？

对此，我是比较乐观的，我认为，从能力上而言，Google，Meta，Runway，Pika，Stability AI都是可以快速跟上的。diffusion transformer技术上也不难，数据质量虽然比起OpenAI有些差距，但也不像去年那么大了。

模型研发与应用落地，其实是两个问题。

PS：三千多字，我是全部戴着苹果的Vision Pro完成的，尽管有这样那样的缺点，但是一旦有了这种沉浸式工作的体验，就回不去了。

PS'：这些天，我觉得自己越来越像个“神棍”了，别人花了很长时间完成的模型，又岂是我们只言片语能够涵盖的，鲁莽了。