Sep 3, 2025

为什么我更看好算力异构

前几天，Alex告诉我，他们的Exolabs集群推理项目可以开始内测了，我因为时间关系，没办法第一时间给到他反馈。但是，当几天后看到他们的项目正式开源后，内心依然非常激动，是的，越来越多的美好正以越来越快的速度扑面而来。精神内耗之余，主基调依然是“幸福”的。

其实，这不仅仅是一个集群推理项目，更是一个异构算力推理的项目。

项目地址：https://github.com/exo-explore/exo

项目底层支持MLX（苹果芯片的训练与推理框架），llama.cpp，也支持刚推出的tinygrad（tinygrad支持CUDA、RoCm即AMD，Metal即苹果自家芯片和Intel芯片，等），所以，这首先就是一个支持几乎所有主流推理硬件设备的项目。

然后再通过集群调度，实现多设备共同推理（一种典型的方式在我之前的文章里，实际测试过三台M1的Mac Mini，等于一个22B模型，实际上我前段时间还跑了其他的设备，包括最奇怪的组合Intel CPU+AMD GPU的苹果设备）。简单而言，可以如Alex给出的例子一样，实现Mac笔记本，iPhone，iPad共同推理。

当然，也还可以加入安卓手机，英伟达GPU，AMD的GPU，等等，这就是算力异构（其实llama.cpp也可以推理这些设备，只不过不支持苹果自己的MLX框架，所以苹果设备推理性能不好，exolabs直接支持MLX框架，大幅提升了苹果设备的推理性能）。

那么重点来了，为什么我看好异构算力的推理应用，为什么最近好几个开源项目都在试图解决这个问题？

我只挑要点过一下，其中涉及到一个重要的关于内存及网络带宽对推理的重要性，偏技术（后面会想着如何用更简洁直观的方式出系列内容），所以只会有定性结论。

1、毫无疑问，英伟达的GPU，无论是Hopper系列（H100、H200等），还是即将发货的Blackwell（B100、B200、GB200）依然是性能、生态、兼容性甚至考虑综合成本后最好的方案。简单拍脑袋，大概日活用户过万（意味着峰值并发可能过千），都会是英伟达的方案最优（AMD的MI300-350，Intel的Gaudi-2/3可能性价比会高一点，但是综合考量生命期成本，就没有什么优势了）；

2、可是在这体量之下，英伟达GPU服务器方案虽然依旧可以做到按token成本计算的极高性价比，但是也可能会面临极高的隐性维护成本：服务器放置的环境（如果是数据中心托管，那么不菲的托管费用，如果是本地部署，那么散热、噪音、供电都是问题）、利用率、潜在故障后较高的修理和置换成本，人员维护成本，其实都是要重点考虑的问题；

3、对于很多小企业和个人用户而言，上面的隐性成本其实是极高的，而且绝大多数场景并不需要那么高的推理速度。相反，小公司或者“爱折腾”的个人，各种设备是有大量冗余的，让闲置设备发挥余热，是一个很“酷”的方式，更何况，大量测试表明，闲置设备的性能并不差，即使如上面视频里Alex的测试结果所示，两台mac，一个ipad，两个iphone，推llama3-8B的模型，推理性能目测也是超过10tokens/s的，这个速度已经很有实用性了；

4、推理的过程其实就是大量数据传输的过程，所以为什么需要大内存和高内存带宽，就是因为内存速度远远高于硬盘（即使是SSD），所以模型要装载到内存里，内存越大能够装载的模型也就越大，内存速度（带宽）越快，推理速度也就越快，反而因为GPU核心的计算速度其实远远高于内存速度，所以如果做各种测试，大体都会发现，不同硬件推理性能的高低几乎只受内存带宽的影响。至于网络互联速度，则是提高不同设备间的数据传输速度，但是即使使用集群推理，不同设备间的数据传输量是远小于单设备内内存里的数据传输量的，所以，网络连接速度很重要，但是最重要的还是内存带宽；

5、众所周知，英伟达的数据中心GPU都使用了最高速的HBM内存，最新一代的Blackwell架构里内存带宽达到8TB/s，可比较的是苹果M2 Ultra的内存带宽是800GB/s，看起来差了十倍，我们可以简单认为推理性能是十倍差距。看起来很多，但是在能够用到本地推理的场合，模型参数规模都还有限，性能已经“够用”。当然，如果llama-3的400B模型真的在下周发布，并且开放权重，那么对硬件会有怎样的挑战，到时候再看，我也会第一时间做测试，不过我有信心，结果大概率是可以接受的，而且未来会越变越好的；

6、绝大多数场景下，我们高频使用的可能都是小参数模型（10B以内越来越成为主流），这意味着即使带宽最差的M1的100GB/s（我之前文章里测试的那种），也可以有可接受的性能，手机等边缘设备同样不会差；

7、虽然ChatGPT等已经达到了亿级日活，对超大型企业用户也可以私有化部署，但是AI最大的应用场景其实还是需要本地化推理，这意味着对非数据中心GPU（英伟达的Hooper，Blackwell，AMD的MI300/350，等等）的需求量可能更大，选择也会更多，对异构算力的支持也就顺理成章（用户可能希望不改变自己的应用代码，就可以无缝在不同的笔记本、pad甚至手机和其他IoT设备间快速切换）；

8、扩大面，不仅仅考虑小企业和个人用户，苹果即将推出的Apple Intelligence，就需要到三种模型服务方式：个人设备本地化推理，iCloud隐私推理、ChatGPT等三方模型云端推理，其中，iCloud隐私推理是很重要的一环，目前知道的信息是，苹果显然并不准备大量采购第三方GPU提供推理服务，而是会大量使用自研的M2 Ultra（也可能更新的），苹果都可以这么选择，自然是有足够的底气 and 做过充分的论证了，事实上，苹果最近一年一系列开源项目都在证明着这种方案的可行性；

9、回到国内环境，众所周知的原因下，我们整体算力会一直处于非常紧缺的状态，我相信即使有某国产算力芯片可以大规模使用，但是国产芯片的百花齐放，甚至跟其他各种来源的成熟芯片共同使用，在这个过程中加快技术迭代的速度，会是最为现实的道路，国内比任何其他地方都更需要算力异构；

10、我看好异构，最后还有一个最重要的原因，因为我相信正如模型的差距越来越小一样，硬件的差距也会越来越小，更多更灵活的选择，既可以有效的快速降低计算成本，也一定会加速技术的更新迭代，推动更好的AI的进步（或许，更好的AI不仅仅意味着更聪明的模型，还意味着更节能的模型，对人类更友好的模型，等等）。

算力异构，与模型开源（开放权重勉强算吧），也许是更好的AI里最重要的两个基础生态。