Sep 3, 2025

Deepseek研究（2）：少数派报告

除非有新模型推出，这应该是我最后一篇只写Deepseek的文章。事实上，接下来要说的很多观点，可能跟“主流”差距甚大，但这些都是我通过积累、时间和实践得来的“推论”，本来就是供“攻击”的。

不长篇大论了，而是就几个我认为挺核心的问题，进行一次“少数派报告”。

往大了说，这是一次“免费”的盛筵：没有办法经常使用ChatGPT、Gemini、Claude这些最先进模型的用户，终于“见识”到了AI的能力和潜力；长期使用AI的用户，多了一个“免费好用”的选择，竞争总是对用户有利的。

对于大量用户而言，有了一个不需要什么专业知识，就能得到“惊艳”输出结果的AI工具，因为“访问限制”的关系，在国内，之前的AI应用多在“生产端”的效率提升的尝试上，如今，海量用户的“心智”被打开，对行业而言当然是好事。

对于全球从业者而言，V3的一些工程创新打开了新思路，在“高端算力”长期供不应求的约束下，多了有“现实价值”的优化方案；V3 and R1的两篇论文，可以启发很多“研究者”，给出了一条可实践的提高现有模型上限的道路；开放权重提供了更多领域优化与推广的潜在可能性。

但是：

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182184-4416.jpg

虽然全面评测模型能力在当下几乎是一件不可能的事情，但是将“V3和R1看作跟GPT等前沿模型在一个能力水平线上”，估计质疑声不会太多。

那么，如果Deepseek不是“免费”和“开放权重”，那估计带来的关注度应该是指数级下降的。

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182184-6651.jpg

很幸运，关于这个问题的争议越来越小。在如今的成本下，可能让Meta训练一次Dense Model为37B，总MoE模型规模671B，15T Tokens的模型，成本肯定比DeepSeek高，但是也高的很有限。

技术的快速进步总是会带来成本的快速下降。

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182185-2002.jpg

这个结论可能会受到很多攻击，但如果Deepseek给用户开放的是“原生满血”的V3和R1的话，每百万Token收费1.1美金和2.19美金，很可能将将覆盖电费，算上硬件折旧、机房托管、网络、运营等其他费用。至少在Hopper架构的芯片下，即使有，盈利的空间也极小，大概率可能还是亏钱的。

推理服务成本节省主要靠三个方面：1、硬件提升（提高每W功耗的算力）；2、模型剪裁和蒸馏；3、推理优化。

后两者都会带来明显的模型能力下降，这也是为什么GPT-4推出一段时间后，用户反馈“降智”，同样的事情也发生在了GPT-4o身上的原因。

同样，因为超低价的天花板存在，和用户普遍的“AI大幅降本”的认知存在，云服务商纷纷上马的Deepseek模型API服务，如果背后模型真的是“原生满血”的V3和R1，盈利空间可能也是不存在的。大的云厂商可能还有高端一点的算力，其他的，就……

不过，在鱼龙混杂的现状下，打着“原生满血”旗号，卖“蒸馏小模型”服务，估计也是大有人在，反正绝大多数用户是难以分辨真伪的。

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182185-5361.jpg

即使考虑网速问题，我们在任何一台PC上（无论Windows还是Mac）下载一个ollama应用，一句命令行“ollama run ****”，都可以在很短的时间里实现一次“端侧部署”。

如果我们对1.5B、7B蒸馏模型的表现已经很满意了，恭喜你。

但是，如果我们的场景就是需要一个“原生满血版”，对不起，门槛大概是12-16块英伟达的H100/800或者A100/800（基本上是两台服务器，当然我也见过插16块卡的服务器）。但是这里面需要的优化调整，非常不容易，一台机器还好，但凡超过一台，复杂性至少就提高了好几倍。

当然，理论上，我可以用五到六台苹果M2 Ultra芯片的Mac Studio（192GB一体化内存）跑一个满血版（目前在Hugging Face社区里能够直接下载到的转换为苹果可用的模型权重文件还是4bit量化版，不是满血版，我懒得用llamacpp自己量化一次，太耗时耗力了），如今也顺利的通过三台机器跑了4bit量化版本。优化后10tokens/s的输出速度也还可以了，但我相信自己这样的，不太多。

对绝大多数人而言，端侧部署，从开始到放弃，大概不会超过一周。

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182186-3185.jpg

其实要说清楚这个问题，挺复杂的，我尽可能简单讲结论。

1、V3和R1是两个模型，V3是基础模型，R1是思考模型。首先，按照上面说的，我们就是无法在端侧硬件上部署一个“原生Deepseek”（最小的动态量化可以做到1.58bit，超过100GB显存占用，请找出这样的端侧硬件），那么只能是蒸馏版的小模型，那是被R1精调过的模型，而不是R1；

2、至于V3，MoE架构几乎决定了它无法被小型化，所以也别想了。我们端侧AI的基础模型还是QWen，还是LlaMA；

3、蒸馏的R1有没有意义？有，就是可以大幅提升基础模型的能力；有没有代价？有，就是输出格式高度“固化”：类似于<thingking></thinking>这样的标签，以及失去的“提示词工程”的巨大优化空间；

4、目前端侧AI走的路径逐渐收敛到Agent上，但是，因为上面说到的输出格式的问题，R1和Agent其实是有冲突的。这一点，在OpenAI刚推出o1时，一些人已经发现了，虽然给出了很多优化方法，甚至OpenAI自己在o3里也做了许多改变（Deep Research就是例证）。但是在模型里“固化”思考，就是限制了Agent的使用空间，要让Agent自由发挥，就需要相信“基础模型”的巨大潜力。坦白讲，过去一段时间，R1的方法，很多人都想过，甚至尝试过，但是，“强化学习”到底是走类似于SFT的路，还是留在Agent的“纯推理时”部分，依然充满争议；

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182186-2665.jpg

我大概是最早一批看好“具身智能”的人。但是详细交流过的人大概也能知道我一贯的观点：因为“智能”大概需要在物理世界里通过不断反馈的“强化学习”得到；更多模态的数据提供更多的信息；以基础模型作为“知识库”，结合场景得到个性化的“智能”可能更重要。

但是这个过程，很难，更需要时间。

如果我们在人型机器人里加一个蒸馏过的R1，技术上而言，就是一个说起话来“更像人”的智能音箱，因为我们会容忍延时；

如果我们在“无人驾驶车”里加一个蒸馏过的R1，对智能座舱的交互肯定有加持，原理跟智能音箱一样；但是对智能座舱的控制能力是“削弱”的，控制部分我们需要的是模型发起function call的调用（Agent的基础），前面说了，R1从根本上跟Agent兼容性下降了；

如果我们让蒸馏过的R1“<thinking>前面刹车灯亮了，我该怎么办………………</thinking>”，场面我不敢想象。

多说一句：我们离“具身”的距离是一个可以提高QWen和LlaMA小模型能力的蒸馏版R1吗？

如果是的话，我相信，模型厂早就可以基于基础版的QWen和LlaMA将“具身”投入实用了。

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182187-6542.jpg

显然GPT-4o离我们想要的“AGI”依然有很远很远的距离。在AI研究领域里，最急迫的问题，显然不是出一个“GPT平替”（这不代表Deepseek没有用意义，意义很大，无论是技术上，还是情绪价值上）。

我们最急迫的问题是，下一代模型什么时候出来？研发方向在哪里？需要克服的“持久化记忆、假设检验”等能力怎么实现？

探索，总是需要付出巨大的成本的。

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182186-3135.jpg

留给GPT、Gemini、Claude等模型，甚至Grok和LlaMA的时间一下子少了很多，紧迫感一下子提升了很多。

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182187-9682.jpg

是的，各家的策略一定会调整，甚至早在去年下半年就可能已经开始了调整。

最了解AI的，一定是最前沿的那几家。

只是，在这个当下，似乎多了许多分岔路需要重点去尝试。如果让我再回到多年前，分配团队计算资源决策的场景下的话，我大概会这么去考虑数据中心：

当然单一地点能够容纳越多算力越好；

如果单集群因为技术限制无法短时间大幅扩大规模的话，那么就先把计算任务分解；

新设备到来后，我需要先花一两个月时间测试各种工程参数：功耗、稳定、硬件出错率、算法与硬件架构的兼容性，规模扩展曲线，等等等等；

然后，测算一个大概的实际运行计划，备足硬件冗余，确定核心部件供应商的供货时间……

然后，点亮所有设备，在震耳欲聋的轰鸣声中，开始刺激的未知旅程。

每一次长时间的训练，都是一次赌博。

2025-02-10-deepseek研究2少数派报告-1dj37k-1771991182187-5065.jpg

我一直看好应用，我看好海外云服务、海外SaaS，但我不看好C端应用，我一直存在这样的认知：没有独家模型和场景的公司，至少难以做出产生可持续商业价值的C端应用。

我们讲了那么多“XX平权”，为什么不讲“应用平权”呢？为什么不讲“平权”意味着潜在商业价值的大幅缩水呢？