为什么我更看好算力异构

为什么我更看好算力异构


前几天,Alex告诉我,他们的Exolabs集群推理项目可以开始内测了,我因为时间关系,没办法第一时间给到他反馈。但是,当几天后看到他们的项目正式开源后,内心依然非常激动,是的,越来越多的美好正以越来越快的速度扑面而来。精神内耗之余,主基调依然是“幸福”的。

其实,这不仅仅是一个集群推理项目,更是一个异构算力推理的项目。

项目地址:https://github.com/exo-explore/exo

项目底层支持MLX(苹果芯片的训练与推理框架),llama.cpp,也支持刚推出的tinygrad(tinygrad支持CUDA、RoCm即AMD,Metal即苹果自家芯片和Intel芯片,等),所以,这首先就是一个支持几乎所有主流推理硬件设备的项目。

然后再通过集群调度,实现多设备共同推理(一种典型的方式在我之前的文章里,实际测试过三台M1的Mac Mini,等于一个22B模型,实际上我前段时间还跑了其他的设备,包括最奇怪的组合Intel CPU+AMD GPU的苹果设备)。简单而言,可以如Alex给出的例子一样,实现Mac笔记本,iPhone,iPad共同推理。

当然,也还可以加入安卓手机,英伟达GPU,AMD的GPU,等等,这就是算力异构(其实llama.cpp也可以推理这些设备,只不过不支持苹果自己的MLX框架,所以苹果设备推理性能不好,exolabs直接支持MLX框架,大幅提升了苹果设备的推理性能)。

那么重点来了,为什么我看好异构算力的推理应用,为什么最近好几个开源项目都在试图解决这个问题?

我只挑要点过一下,其中涉及到一个重要的关于内存及网络带宽对推理的重要性,偏技术(后面会想着如何用更简洁直观的方式出系列内容),所以只会有定性结论。

1、毫无疑问,英伟达的GPU,无论是Hopper系列(H100、H200等),还是即将发货的Blackwell(B100、B200、GB200)依然是性能、生态、兼容性甚至考虑综合成本后最好的方案。简单拍脑袋,大概日活用户过万(意味着峰值并发可能过千),都会是英伟达的方案最优(AMD的MI300-350,Intel的Gaudi-2/3可能性价比会高一点,但是综合考量生命期成本,就没有什么优势了);

2、可是在这体量之下,英伟达GPU服务器方案虽然依旧可以做到按token成本计算的极高性价比,但是也可能会面临极高的隐性维护成本:服务器放置的环境(如果是数据中心托管,那么不菲的托管费用,如果是本地部署,那么散热、噪音、供电都是问题)、利用率、潜在故障后较高的修理和置换成本,人员维护成本,其实都是要重点考虑的问题;

3、对于很多小企业和个人用户而言,上面的隐性成本其实是极高的,而且绝大多数场景并不需要那么高的推理速度。相反,小公司或者“爱折腾”的个人,各种设备是有大量冗余的,让闲置设备发挥余热,是一个很“酷”的方式,更何况,大量测试表明,闲置设备的性能并不差,即使如上面视频里Alex的测试结果所示,两台mac,一个ipad,两个iphone,推llama3-8B的模型,推理性能目测也是超过10tokens/s的,这个速度已经很有实用性了;

4、推理的过程其实就是大量数据传输的过程,所以为什么需要大内存和高内存带宽,就是因为内存速度远远高于硬盘(即使是SSD),所以模型要装载到内存里,内存越大能够装载的模型也就越大,内存速度(带宽)越快,推理速度也就越快,反而因为GPU核心的计算速度其实远远高于内存速度,所以如果做各种测试,大体都会发现,不同硬件推理性能的高低几乎只受内存带宽的影响。至于网络互联速度,则是提高不同设备间的数据传输速度,但是即使使用集群推理,不同设备间的数据传输量是远小于单设备内内存里的数据传输量的,所以,网络连接速度很重要,但是最重要的还是内存带宽;

5、众所周知,英伟达的数据中心GPU都使用了最高速的HBM内存,最新一代的Blackwell架构里内存带宽达到8TB/s,可比较的是苹果M2 Ultra的内存带宽是800GB/s,看起来差了十倍,我们可以简单认为推理性能是十倍差距。看起来很多,但是在能够用到本地推理的场合,模型参数规模都还有限,性能已经“够用”。当然,如果llama-3的400B模型真的在下周发布,并且开放权重,那么对硬件会有怎样的挑战,到时候再看,我也会第一时间做测试,不过我有信心,结果大概率是可以接受的,而且未来会越变越好的;

6、绝大多数场景下,我们高频使用的可能都是小参数模型(10B以内越来越成为主流),这意味着即使带宽最差的M1的100GB/s(我之前文章里测试的那种),也可以有可接受的性能,手机等边缘设备同样不会差;

7、虽然ChatGPT等已经达到了亿级日活,对超大型企业用户也可以私有化部署,但是AI最大的应用场景其实还是需要本地化推理,这意味着对非数据中心GPU(英伟达的Hooper,Blackwell,AMD的MI300/350,等等)的需求量可能更大,选择也会更多,对异构算力的支持也就顺理成章(用户可能希望不改变自己的应用代码,就可以无缝在不同的笔记本、pad甚至手机和其他IoT设备间快速切换);

8、扩大面,不仅仅考虑小企业和个人用户,苹果即将推出的Apple Intelligence,就需要到三种模型服务方式:个人设备本地化推理,iCloud隐私推理、ChatGPT等三方模型云端推理,其中,iCloud隐私推理是很重要的一环,目前知道的信息是,苹果显然并不准备大量采购第三方GPU提供推理服务,而是会大量使用自研的M2 Ultra(也可能更新的),苹果都可以这么选择,自然是有足够的底气 and 做过充分的论证了,事实上,苹果最近一年一系列开源项目都在证明着这种方案的可行性;

9、回到国内环境,众所周知的原因下,我们整体算力会一直处于非常紧缺的状态,我相信即使有某国产算力芯片可以大规模使用,但是国产芯片的百花齐放,甚至跟其他各种来源的成熟芯片共同使用,在这个过程中加快技术迭代的速度,会是最为现实的道路,国内比任何其他地方都更需要算力异构;

10、我看好异构,最后还有一个最重要的原因,因为我相信正如模型的差距越来越小一样,硬件的差距也会越来越小,更多更灵活的选择,既可以有效的快速降低计算成本,也一定会加速技术的更新迭代,推动更好的AI的进步(或许,更好的AI不仅仅意味着更聪明的模型,还意味着更节能的模型,对人类更友好的模型,等等)。

算力异构,与模型开源(开放权重勉强算吧),也许是更好的AI里最重要的两个基础生态。

← Back to Blog