Nov 20, 2025

Gemini的0到1，具身智能的10到100

起这个题目的一个原因很有意思，前不久我们有一次面试，一个候选人做了非常理想化的一家具身智能公司的财务预测模型。在他的预测里，直到2028年，灵巧手都要占到人形机器人成本的超过六成。于是，我问他，人形机器人最重要的是大脑还是小脑，他回答：灵巧手。

我承认，灵巧手非常重要，力反馈模型还没有得到显著的突破。然而，今天之所以有如此高规格的闭门会议在讨论具身智能，吸引人的恐怕更多是智能。

实话说，我有一段时间没有跟进具身智能特别是机器人部分的进展了，我们在两年多前内部推荐宇树机器人的时候，也确实充满激情，即使去年这个时候，我在跟各大机构交流的时候，观点也是具身智能还是看中国制造。

但是，从我们自己的感知来看，过去这一年多具身智能的进步速度是有点低于预期的。这也是我脑子里蹦出这个题目的另一个重要原因，当然，我还是要解释一下这个题目，前半句比较好理解，后半句，讲的具身智能的10到100，意思不是说具身智能已经到了10到100的阶段，而是，我们可能把太多的精力和讨论都放到了10到100上，但事实上，也许还没真正的实现0到1。或者说，即使到了1，如何从1到10的重要性，难度和价值量，可能都比10到100要大的多。

上面是我一个题目的解释和基本结论。下面我逐步展开，首先，还是一个问题，ChatGPT为什么三年前能成功，前两天刚发的Google的Gemini-3又为什么可以反超？

在我看来，答案是一样的，做好了1到10。

为什么这么说？目前我们以ChatGPT、Gemini等为代表的生成式AI，大家知道底层架构都是transformer，这个架构在2017年Google发布《All your need is attention》的论文时就突破了，这才是0到1。从2017年到ChatGPT发布的2022年是五年时间，到现在是八年时间，模型研发的工作其实都是围绕着如何scaling，即扩大规模展开的，更多的数据，更大的数据中心，更多的算力。OpenAI当初发布ChatGPT时最重要的工作实际上是人类反馈监督学习，大白话一点就是我们知道的雇佣一堆所谓人类专家进行数据标注，包括教模型怎么说人话，回答各类问题，怎么解数学题，怎么写代码，怎么识别风险意图，等等。做好各种数据标注工作，就是在1到10里面不断优化，让模型可以看起来像一个人，无论你觉得它是婴儿，小学生，还是博士生，也是在1到10里的不断优化，让模型的能力看起来越来越强。Google当初没有重视这件事情，无论是当时的DeepMiind团队，还是Google Brain团队，都有点过于理想化，他们想的是找到让模型可以自己训练自己，自己优化自己的强化学习的方法，因为他们从AlphaGo和AlphaZero的实践中获得了信心。然而，ChatGPT的提前发布，打乱了AI领域所有研究团队的节奏，Google在重压之下进行了半年多的调整，最终把所有的精力都集中到1到10的优化上，经过了Gemini 1.0，1.5，2.0，2.5，到前两天的3，差不多两年时间，实现了反超。

当然，所谓的1到10，包含大量的工作，但是最核心的就是做好数据。今天，即使我们都在说Agent，中文翻译成智能体，虽然我觉得这个翻译很不好，但就这么说吧，实质还是数据：如何把我们人类的操作抽象成数据，让模型可以理解。包括所谓的多模态，音频，图像，视频，等等，核心还是数据。当然，不是零散的数据，而是如何把各种数据对齐，成为一个整体，让模型可以思考更多的步数，执行更多的步数，即工作更长的时间，识别更多的语言，不仅可以看懂图像，还可以生成出来，不光可以生成一张静态的图片，还可以生成多帧成为视频，甚至以后不仅可以生成8s，10s，还可以直接出一部几小时的电影。

两个例子可以说明这其中的价值，一个是美股上市的公司，叫做innodata，就是帮助Google做数据的，可以看到过去两年里收入快速增长，还有一个例子是Meta前段时间一百多亿美金收购的那家公司Scale AI，也是做数据的。Meta的LlaMA模型为什么到了3以后突然掉队了，多模态也做不上去，也还是数据问题。不过，经过最近的一系列折腾后会不会迎头赶上，我们也不妄自做揣测了。

关于AI模型的部分，还有第二个问题，就是我们看到一堆AI应用公司，一会儿声势很大起来了，很快就没什么声音了。原因是什么，定位不清晰，看起来就是用了错误的方式进入到了错误的领域，简单讲，就是用很小样本的数据试图去解决1到10的问题，然后企图卖给希望做到10到100的客户。其实，如果客户有能力从10做到100，它就完全有能力去做那个小样本数据，还能做的更好，客户直接用大模型就完事了，另一方面，如果客户没能力从10到100，那应用公司理性的选择也不是帮助客户如何从10到100，如果有这个能力，那就直接把客户的业务抢掉就是了。

当然，以上的说法并不完整，不过大概就是这样一个分工，今天的主题也不是讲模型，我就是大概这么汇报一个我的框架，供各位领导指正，然后再从我个人的观点出发，看对于具身智能而言，有什么借鉴的价值。

所以，我们回到主题，具身智能。虽然都有智能两个字，但其实具身智能至少从落地看，跟大模型或者说生成式AI是有两个非常重要的区别的，第一个是在执行环节，因为大模型或者说生成式AI在目前是完全运行在数字世界里的，所以，大家会发现，实际上最末端或者我们说的10到100那部分，其实是不缺数据和工具的，各种软件系统，操作流程，都解决了10到100的部分，大模型不是要去取代这部分的，而是应该考虑如何用好这部分，就是用好工具，所以我们看到，当有大量的上面说的人如何工作的1到10 的数据出现后，加入所谓Agent的机制，就马上可以用到10到100的数据和工具，实现很多自动化的工作；可是具身智能不是的，具身是真的希望在执行环节里从物理上模仿人，代替人，去做好执行，这个问题我下面重点讨论；再说第二个重要区别，就是生成式AI是已经实现了0到1的突破的，之前说过，transformer就是0到1，我们说的大模型可以预测下一词就是1，后面的工作都是让预测变得更好，而具身智能，实际上是没有突破1的，到现在我们还没有真正找到通向这个智能的钥匙，前几年觉得大模型可以，后来觉得可能要空间智能和物理AI突破才行，总之，是还没有实现0到1的。

但是，这似乎又不影响具身智能的蓬勃发展。

原因是什么？其实，就是我们人类对具身智能本身已经基本上有个大体的框架设想了，目标很具体，比如智能驾驶，就是可以像人一样开车，舒适安全，不出事故，比如人形机器人，就是可以像人一样做家务，在流水线工作，或者，其他各种任务，都很具体。用计算机系统讲，这就变成一个松耦合的系统，反正不管智能部分会做到什么程度，最终端的执行环节是确定的，采集端总要用到摄像头，麦克风，还有可能需要激光雷达，执行端需要一系列部件，当然，就以灵巧手来代替所有这些部件吧。

因此，我们看到如果参照上面讲大模型的框架的话，这是10到100的部分，确实需要重新构建的，而且因为kpi目标明确，就成为容易落地的部分。当然，这也并不容易，而且像灵巧手，像走路跑步，很多是在1到10的部分了。

从某种程度而言，尽管我们对具身智能的定义和想象框架可能很完整了，就是按照人来定义的，但未来会如何，其实是很模糊的。确定性远小于目前还完全存在于数字世界的大模型。我们现在在执行环节做的很多工作都是为了“智能”去准备的，而且很多都并非用在传统工业场景，这些以目前的传统机器人已经可以做到很低的成本了。具身智能，或者这里直接聚焦到智能机器人，是为开放式场景，非预设性任务准备的。所以，又回到开始的那个问题，大脑和小脑哪个重要，我个人观点，肯定是大脑要重要的多，因为有了大脑，才可以去定义全流程，有了大脑，或许很多流程都变了，例如，很可能家里的很多电器设备只需要一个联网指令就能操作了，不需要跟1x刚发售的neo机器人一样，面对一个洗碗机需要关好几分钟了。

影响类似解决方案的重要变量是大脑或者说智能出现的时间。我认为这个智能是与那些大模型公司宣称的“AGI”基本同步的，甚至就需要所谓的“AGI”去支撑。目前关于AGI，大家普遍更认同DeepMind的Demis的预测，大概还是需要五到十年，前提是如果真的能出来的话。当然OpenAI等乐观预测是2028年前后，最乐观的到2027，甚至有一个AI2027的网站，详细推演了在这之前的各种历程，挺有意思的，各位领导感兴趣的话可以去看一下。

我们大概就中性一点，2030年。还有五年时间，这期间的技术变动是非常大的，尤其是具身智能领域。这就变成从哪个视角去看的问题，我们同行里，很多是机械研究员出身的，可能就会觉得灵巧手，丝杠电机这些很重要，问他们的话，可能我上面说的很多部分他们是不同意的，他们会认为这个至少是属于1到10的部分，但我是搞软件和数据出身的，同时也干了快二十年金融了，我会认为模型和算法系统可以改变执行逻辑，同时从金融专业出发，我又会坚持对于一个大行业而言，硬件是没什么壁垒的，成本只会越来越低，毛利也只会越来越低，甚至在技术变动大的领域，还会面临极大的快速迭代带来的快速折旧效应。

所以，在最后部分，我汇报一下我的观点，供各位领导指正：具身智能核心的还是智能，其次是具身，实际上是一个大脑规划和物理执行的配合系统，在现在的框架下，任何可以说出具体技术指标的部分其实都不难，我们缺的是那些说不出具体指标的部分，即开放世界的开放式通用任务。具体而言，首先，大量的缺乏数据，不仅仅是物理环境例如房间长什么样，有哪些障碍物，长宽高都是多少，而是缺乏从计划到执行的所有数据，以车为例，其实车的数据相对好采集，因为不管有没有智能驾驶，车都是具体的执行器，人的操作都是指令，都可以被记录在车辆信息里，所以只要采集数据的车越多，智能驾驶算法模型就会越好。机器人就不同了，它要代替人去执行，但是人的执行数据谁记录？实际上，虽然我前面一直在说具身智能的0到1还没有出现，但是如果我们有大量的执行数据，可能即使使用现在比较好的国产开源大模型，也可以达到还算可以接受的效果。举个各位领导肯定都很清楚的例子，手抓东西，特斯拉也演示过，抓不同物体，就得使用不同的力，甚至不同角度，抓鸡蛋和抓一块铁就是不同的，抓衣服又不一样了，不同材质的衣服也有不同，这还只是一个非常非常窄的场景，开放世界里场景太多了。

那么问题来了，到底需要多少数据，里面的scaling law即缩放定律是怎么运作的，其实现在还是不太清楚的，即使有了大量的数字孪生技术，现在获取数据的效率依然是很低的。所以，我甚至有一个比较初步的想法，很可能类似于特斯拉这样的企业，最早生产出来的几万甚至几十万台机器人都是为了采集数据训练模型用的。这里面的成本，我有点不敢算了。

但这大概率意味着机器人模型公司比现在的大模型公司可能门槛更高。海量的1到10的工作需要去做。如果这样的话，我们讲投资机会，可能需要参考大模型的路径，虽然大家都会说英伟达，但是概括起来，目前真正有意义的投资机会来自于为训练模型做配套服务的公司，无论是卖硬件，做数据中心，还是做数据服务的。

而且机器人模型训练可能跟大模型训练有一个显著的不同，大模型训练完以后是公开给用户使用的，后发玩家可以通过各种技术手段从公开的模型里得到足够数据，极大降低自己训练的成本，也就是统称为蒸馏。而机器人模型大概率是没有办法蒸馏的，这意味着每个玩家的成本可能是差不多的，数据服务的价值量会更大。1到10里，软件到硬件到数据采集一体化的解决方案就变得尤为重要，也更具备核心竞争力和不可替代性，这不是比如说灵巧手里加点传感器，而是本身就需要有具备一定算力的控制芯片，通信芯片甚至存储芯片。这还只是一部分，其他的比如摄像头，麦克风等等，数据采集和处理逻辑实际上也比非具身环境下更为复杂，算力开销更大。当然，软硬件与服务集成的价值量也相应提升。