Sep 3, 2025

模型推理性能优化并不简单

找到了Gemini和OpenAI的Deep Research的用法：对于一个话题，自动整理资料。对于自己不熟悉的领域，可能是目前最快最可靠的快速学习方法，对于自己熟悉的领域，则是产出更全面更基础内容的“效率工具”。

所以，昨天，关于模型推理性能的问题，把工作分配给了OpenAI，但是“全文翻译”的大梁还是只能交给Gemini完成。

大模型推理性能的完整基础介绍

道明，公众号：数字游牧日常

[Deep Research-3]：讨论一下大模型推理性能吧，再让o3做个“事实核查”

这种结合，我就可以在下面直接讲结论了：

1、对于个人使用的本地部署推理，一般是在笔记本或者PC上，性能不是第一参考因素，只要不是太慢（例如我上周的0.1tokens/s），重要的是模型能力和硬件资源（显卡、显存、内存）的平衡，在可以接受的硬件约束下用最好的模型，是更好的选择：M4 Max的高配Macbook就该使用到70B的模型；

2、对于手机上的本地部署，模型能力是够用原则，在能力够用的前提下，模型规模要尽可能小（2B/3B，甚至1.5B，1B？），但其实这对手机厂商的要求是非常高的。因为体验是时时刻刻可以被感知的，这需要高度结合模型、数据（苹果叫做用户画像的上下文数据）和应用调度的高度融合。到目前为止，我手机上用的高频场景就三个：1、Circle to Search（或者翻译）；2、语音识别转录；3、三星Note应用里的手写识别等。这些都是Gemini驱动的，我还在尝试的是GMail的邮件摘要等，但是信息整理总是需要花费一段安静时间的；

3、企业内部本地部署使用，我一直觉得这块业务应该属于私有云服务的：一家企业是很难找到效益最佳点的，用量少了，硬件 and 人力资源闲置，用量大了，硬件资源不够，维护成本飙升。当然，如果都转向私有云了，那更合适的方法应该是租服务而不是算力，按用量付费，迁移方便，内部业绩考核模型最简单；

4、云部署，或者所谓MaaS服务。MaaS不是建或者租个机房，买几台服务器，下载一个“开源模型”（开放权重），提供API调用和计费模块这么简单。或者说，根本很不简单：独家模型、独家硬件、独家优化算法、增值SaaS服务、下游生态，这些要素至少要占一个吧，否则用户为什么要选？当然，还有一个独家，资源，比如便宜的地，便宜的电，或者离用户足够近。但是，核心还是两点：模型能力，打包总成本。

基本就演化出了：

SaaS服务，既卖软件和服务，也打包卖CSP的硬件租赁；

专用推理芯片上的模型调用服务，Groq和Cerebras，基于SRAM的芯片只能自己部署，但就是推理速度奇快，不过如果Transformer被替代了，这些硬件可用性也就大幅降低了；

2025-02-11-模型推理性能优化并不简单-1eyatj-1771991403262-1263.jpg

下游生态带来的API服务，目前看起来Google和三星走的确实最快，虽然都是Gemini驱动，但是三星换了个壳叫Galaxy AI，但是三星不收费，大概是因为Google也没有单独收费吧（除了Gemini Advanced版本），但Google有自己的模型，自己的TPU，自己的生态。当然，也正是因为这点，市场依然对苹果足够期待：更好的生态，自己的芯片与iCloud服务，自己的模型，总会有的，至少够用；

有意思的是，自家芯片与自家模型的结合也是个双刃剑，价格便宜量又足才有用户，才有可持续的商业模式，因为用户大概率不会直接租算力，而是租API服务（哪怕是应用中调用）。很可能，模型不领先了，API服务调用就没了，自家芯片成为“自家负债”，或者自家芯片落后了，推理成本高居不下“劝退用户”；

当然，深度绑定最先进算力，再加上一些增值服务，目前看无论是出租算力，还是直接提供三方模型API服务，似乎还能活一阵子。最重要的还是，头部企业每一代硬件的升级，就能把推理成本降低90%以上，如果这时候数据中心还有一定规模 and 用户量，就可以进一步提升效率，降低成本；

毕竟，如果都是“空手套白狼”，那就看谁成本更低。最先进的算力显然是降本的最大贡献者；其次是数据中心 and 用户规模，规模越大，优化空间越大，成本越低；

点到为止：如果大数据中心的算力利用率都不够，调用成本还过高，那有“三无”小数据中心什么事？

用的越多，亏的越多。

毕竟，离开北上广，过上幸福的“田园生活”，这种例子，只能活在社交媒体里。