除非有新模型推出,这应该是我最后一篇只写Deepseek的文章。事实上,接下来要说的很多观点,可能跟“主流”差距甚大,但这些都是我通过积累、时间和实践得来的“推论”,本来就是供“攻击”的。
不长篇大论了,而是就几个我认为挺核心的问题,进行一次“少数派报告”。
往大了说,这是一次“免费”的盛筵:没有办法经常使用ChatGPT、Gemini、Claude这些最先进模型的用户,终于“见识”到了AI的能力和潜力;长期使用AI的用户,多了一个“免费好用”的选择,竞争总是对用户有利的。
对于大量用户而言,有了一个不需要什么专业知识,就能得到“惊艳”输出结果的AI工具,因为“访问限制”的关系,在国内,之前的AI应用多在“生产端”的效率提升的尝试上,如今,海量用户的“心智”被打开,对行业而言当然是好事。
对于全球从业者而言,V3的一些工程创新打开了新思路,在“高端算力”长期供不应求的约束下,多了有“现实价值”的优化方案;V3 and R1的两篇论文,可以启发很多“研究者”,给出了一条可实践的提高现有模型上限的道路;开放权重提供了更多领域优化与推广的潜在可能性。
但是:

虽然全面评测模型能力在当下几乎是一件不可能的事情,但是将“V3和R1看作跟GPT等前沿模型在一个能力水平线上”,估计质疑声不会太多。
那么,如果Deepseek不是“免费”和“开放权重”,那估计带来的关注度应该是指数级下降的。

很幸运,关于这个问题的争议越来越小。在如今的成本下,可能让Meta训练一次Dense Model为37B,总MoE模型规模671B,15T Tokens的模型,成本肯定比DeepSeek高,但是也高的很有限。
技术的快速进步总是会带来成本的快速下降。

这个结论可能会受到很多攻击,但如果Deepseek给用户开放的是“原生满血”的V3和R1的话,每百万Token收费1.1美金和2.19美金,很可能将将覆盖电费,算上硬件折旧、机房托管、网络、运营等其他费用。至少在Hopper架构的芯片下,即使有,盈利的空间也极小,大概率可能还是亏钱的。
推理服务成本节省主要靠三个方面:1、硬件提升(提高每W功耗的算力);2、模型剪裁和蒸馏;3、推理优化。
后两者都会带来明显的模型能力下降,这也是为什么GPT-4推出一段时间后,用户反馈“降智”,同样的事情也发生在了GPT-4o身上的原因。
同样,因为超低价的天花板存在,和用户普遍的“AI大幅降本”的认知存在,云服务商纷纷上马的Deepseek模型API服务,如果背后模型真的是“原生满血”的V3和R1,盈利空间可能也是不存在的。大的云厂商可能还有高端一点的算力,其他的,就……
不过,在鱼龙混杂的现状下,打着“原生满血”旗号,卖“蒸馏小模型”服务,估计也是大有人在,反正绝大多数用户是难以分辨真伪的。

即使考虑网速问题,我们在任何一台PC上(无论Windows还是Mac)下载一个ollama应用,一句命令行“ollama run ****”,都可以在很短的时间里实现一次“端侧部署”。
如果我们对1.5B、7B蒸馏模型的表现已经很满意了,恭喜你。
但是,如果我们的场景就是需要一个“原生满血版”,对不起,门槛大概是12-16块英伟达的H100/800或者A100/800(基本上是两台服务器,当然我也见过插16块卡的服务器)。但是这里面需要的优化调整,非常不容易,一台机器还好,但凡超过一台,复杂性至少就提高了好几倍。
当然,理论上,我可以用五到六台苹果M2 Ultra芯片的Mac Studio(192GB一体化内存)跑一个满血版(目前在Hugging Face社区里能够直接下载到的转换为苹果可用的模型权重文件还是4bit量化版,不是满血版,我懒得用llamacpp自己量化一次,太耗时耗力了),如今也顺利的通过三台机器跑了4bit量化版本。优化后10tokens/s的输出速度也还可以了,但我相信自己这样的,不太多。
对绝大多数人而言,端侧部署,从开始到放弃,大概不会超过一周。

其实要说清楚这个问题,挺复杂的,我尽可能简单讲结论。
1、V3和R1是两个模型,V3是基础模型,R1是思考模型。首先,按照上面说的,我们就是无法在端侧硬件上部署一个“原生Deepseek”(最小的动态量化可以做到1.58bit,超过100GB显存占用,请找出这样的端侧硬件),那么只能是蒸馏版的小模型,那是被R1精调过的模型,而不是R1;
2、至于V3,MoE架构几乎决定了它无法被小型化,所以也别想了。我们端侧AI的基础模型还是QWen,还是LlaMA;
3、蒸馏的R1有没有意义?有,就是可以大幅提升基础模型的能力;有没有代价?有,就是输出格式高度“固化”:类似于<thingking></thinking>这样的标签,以及失去的“提示词工程”的巨大优化空间;
4、目前端侧AI走的路径逐渐收敛到Agent上,但是,因为上面说到的输出格式的问题,R1和Agent其实是有冲突的。这一点,在OpenAI刚推出o1时,一些人已经发现了,虽然给出了很多优化方法,甚至OpenAI自己在o3里也做了许多改变(Deep Research就是例证)。但是在模型里“固化”思考,就是限制了Agent的使用空间,要让Agent自由发挥,就需要相信“基础模型”的巨大潜力。坦白讲,过去一段时间,R1的方法,很多人都想过,甚至尝试过,但是,“强化学习”到底是走类似于SFT的路,还是留在Agent的“纯推理时”部分,依然充满争议;

我大概是最早一批看好“具身智能”的人。但是详细交流过的人大概也能知道我一贯的观点:因为“智能”大概需要在物理世界里通过不断反馈的“强化学习”得到;更多模态的数据提供更多的信息;以基础模型作为“知识库”,结合场景得到个性化的“智能”可能更重要。
但是这个过程,很难,更需要时间。
如果我们在人型机器人里加一个蒸馏过的R1,技术上而言,就是一个说起话来“更像人”的智能音箱,因为我们会容忍延时;
如果我们在“无人驾驶车”里加一个蒸馏过的R1,对智能座舱的交互肯定有加持,原理跟智能音箱一样;但是对智能座舱的控制能力是“削弱”的,控制部分我们需要的是模型发起function call的调用(Agent的基础),前面说了,R1从根本上跟Agent兼容性下降了;
如果我们让蒸馏过的R1“<thinking>前面刹车灯亮了,我该怎么办………………</thinking>”,场面我不敢想象。
多说一句:我们离“具身”的距离是一个可以提高QWen和LlaMA小模型能力的蒸馏版R1吗?
如果是的话,我相信,模型厂早就可以基于基础版的QWen和LlaMA将“具身”投入实用了。

显然GPT-4o离我们想要的“AGI”依然有很远很远的距离。在AI研究领域里,最急迫的问题,显然不是出一个“GPT平替”(这不代表Deepseek没有用意义,意义很大,无论是技术上,还是情绪价值上)。
我们最急迫的问题是,下一代模型什么时候出来?研发方向在哪里?需要克服的“持久化记忆、假设检验”等能力怎么实现?
探索,总是需要付出巨大的成本的。

留给GPT、Gemini、Claude等模型,甚至Grok和LlaMA的时间一下子少了很多,紧迫感一下子提升了很多。

是的,各家的策略一定会调整,甚至早在去年下半年就可能已经开始了调整。
最了解AI的,一定是最前沿的那几家。
只是,在这个当下,似乎多了许多分岔路需要重点去尝试。如果让我再回到多年前,分配团队计算资源决策的场景下的话,我大概会这么去考虑数据中心:
当然单一地点能够容纳越多算力越好;
如果单集群因为技术限制无法短时间大幅扩大规模的话,那么就先把计算任务分解;
新设备到来后,我需要先花一两个月时间测试各种工程参数:功耗、稳定、硬件出错率、算法与硬件架构的兼容性,规模扩展曲线,等等等等;
然后,测算一个大概的实际运行计划,备足硬件冗余,确定核心部件供应商的供货时间……
然后,点亮所有设备,在震耳欲聋的轰鸣声中,开始刺激的未知旅程。
每一次长时间的训练,都是一次赌博。

我一直看好应用,我看好海外云服务、海外SaaS,但我不看好C端应用,我一直存在这样的认知:没有独家模型和场景的公司,至少难以做出产生可持续商业价值的C端应用。
我们讲了那么多“XX平权”,为什么不讲“应用平权”呢?为什么不讲“平权”意味着潜在商业价值的大幅缩水呢?
声明:这是一篇纯技术层面的探讨。所有的素材准备都是我在休息时间完成的。我追求的是“信息平权”。