再写一篇关于sora及世界模型的吧,纯文字

再写一篇关于sora及世界模型的吧,纯文字


这些天的讨论太多了,以至于Lecun又在社交媒体上开始“乱喷”了。其实,在通向AGI的可能之路上,谁都是无知的小孩,在做着一个又一个的实验而已。

关于世界模型

Sora出来后,很多人说,这就是世界模型,但是也有很多的批评说这并不是,其中最具代表性的就是Meta的Lecun了,为了支持自己的观点,Lecun还给出了自己认为的世界模型的定义。当然,正如Lecun自己所言,太多的甚至都没为机器学习做出过任何贡献的人都会去批评他。一方面,他说的当然有道理,但是另一方面,恰恰说明AI对社会的当前影响和潜在影响,全民讨论,每个人都有自己的观点,其实很正常。

况且,如前所说,在这条通向未来的道路上,其实,没有权威。

回到“世界模型”,Lecun的定义虽然给出的只是简单的公式,但是背后涉及到深度增强学习方面的基础知识,一两句话确实也解释不清楚,而我对于是该预测对象的下一时刻状态,还是该预测环境的下一刻状态,保留自己的看法,再说,对象和环境,在一个复杂的世界中,有点难以定义清楚。

我自己设想的“世界模型”,更像微观经济学里的“市场”,有许多的市场参与者(主体,对象,或者直接对应到这个环境,AI或者智能体),每一时刻的预测其实都是所谓的一般均衡。

如果从这个角度看,其实,sora和Meta刚推出的V-JEPA模型,根本不像Lecun说的差别那么大:

  1. OpenAI团队为什么叫sora为simulator,仿真器。 每一次的生成,简单而言都会有两部分:环境(场景),对象(比如人,狗,天气,等等),如果不要把自己作为生成视频的观察者,或者说,生成的视频其实就是模型自己作为客体,对各种对象行为的预测,以及这些行为对环境造成的变化。所以,sora本质上还是个预测模型,只是通过生成的方式来显化出来。
  2. Meta刚推出的V-JEPA模型。 去掉所有花哨的东西,其实这个模型就是通过对于视频里的对象进行遮盖(masking),然后对遮盖部分进行预测,通过大量数据的训练,希望模型能够产生一些具体的概念,可能是物体,可能是连续的动作,等等。所以,实际上这两个模型都是基于对对象或者环境的预测,不是吗?训练模型的结构当然有区别,但是更多的区别只在于,一个通过生成显化出来,一个只是预测。
  3. Lecun的批评。 Lecun批评的是认为sora这种基于像素级的预测方式,死路一条,因为预测结果并不稳定,这个当然有道理。但是,一,sora也并非基于像素级,而是通过transformer把平面加时间序列的信息变成一个个spacetime patches,其实patch就可以等同于token;二,V-JEPA的预测,涉及到masking,涉及到识别,以及一系列其他复杂的运算,也需要encoding,decoding,这难道就完全不是“像素级”了吗?所以,没有清晰的线能分清楚的。三,预测,其实都是基于encoding后的空间里的,生成也是在这个空间里diffusion,然后再decoding的。所以,我部分认同Lecun说的,但是要抬杠,谁都可以。
  4. 殊途同归。 其实都是尝试,一条路走不通了,再换一条呗。只是,商业利益和“争第一”的胜负心,把大家都停在杠头上了。

Sora的应用场景是文生视频吗?

沿着上一节所说,答案显然是否定的。Sora本质上应该是一个世界的观测者和预测者,视频生成功能只是副产品。

但是,太多人看了生成的视频效果后,惊呼:AGI!殊不知,且不说现在的sora离AGI还差着十万八千里,sora的目的也不是成为AGI,而是为AGI服务,简单讲,投喂数据。

虽然关于AGI的定义依然很不统一,但是AGI至少要具备决策能力,至少要“理解”任务,并稳定的执行好任务。Sora叫做仿真器,就是模拟出一个“世界”:环境和对象,在学习到的“规则”之下“预测”对象的运动与环境的变化,把这些数据给到“AGI”,通过复杂的强化学习,看“AGI”是否真的能出来。

现在的状态是,特斯拉为代表的自动驾驶研发中,生成的“世界”足够覆盖绝大多数场景,甚至对于一些现实中出现状况的场景,还能复现。但是如果用sora去生成“世界”,训练自动驾驶模型,估计胆子再大的人,都不敢用。这只能说目前人类预设规则的引擎更有效,sora还需要进步,但这根本不是批评sora的理由。人类干预规则这条路已经几乎走不下去了,我们只能寄希望于sora这类模型了。

所以,回到视频生成的副产品功能上讲,指望sora这种模型马上达到好莱坞大片的质量,当然不现实。但是,在实务中,即使只是一部分的引入,都足以优化流程,产生不可估量的效果。

现在,模型可以取代的是低质量的视频自媒体内容。

那么,sora的问题在哪里?

一个很有意思的事情是,因为训练“AGI”缺太多的数据,所以需要sora这类仿真器去生成数据,而sora最大的局限,也是,缺数据。

在sora的技术报告里,数据部分用了简单的几句话就带过了。这代表数据才是最重要的部分。毫无疑问,OpenAI模型领先的原因主要是两点:1、人够“卷”;2、数据质量够好。

另一方面,现在训练的数据,无论是图像,还是视频,都是二维的,没有空间信息。光学二维数据的sora,也很难理解三维世界里的“物理”。所以,数据缺,还是奇缺。但只要证明scaling law有效,那就想方设法继续扩规模,尽可能喂更多数据。

最后,其他家能快速跟进吗?

对此,我是比较乐观的,我认为,从能力上而言,Google,Meta,Runway,Pika,Stability AI都是可以快速跟上的。diffusion transformer技术上也不难,数据质量虽然比起OpenAI有些差距,但也不像去年那么大了。

模型研发与应用落地,其实是两个问题。

PS:三千多字,我是全部戴着苹果的Vision Pro完成的,尽管有这样那样的缺点,但是一旦有了这种沉浸式工作的体验,就回不去了。

PS':这些天,我觉得自己越来越像个“神棍”了,别人花了很长时间完成的模型,又岂是我们只言片语能够涵盖的,鲁莽了。

← Back to Blog