为什么这家公司的芯片推理速度比英伟达快20倍？

09-12 452阅读 0评论

编者按：本文来自微信大众号腾讯研讨院（ ID：cyberlawrc），作者：曹士圯，创业邦经授权转载。

咱们往常运用 AI东西时，现已习惯了它们逐字逐词往外“蹦”的“说话”办法，如同也没太注意到这些依据大模型的AI 东西，往往需求数十秒才干得到一个完好答复。好在大模型加快推理芯片的开展，正在经过另一种全新的芯片架构，处理时延的问题。当人机交互速度能进步到本来的几十倍，你能幻想又有哪些全新的人机交互场景会出现在咱们面前吗？

2024 年 8 月 28 日，美国 AI 芯片独角兽公司 Cerebras 发布了名为 Cerebras Inference 的加快推理服务。依据其首创的 Wafer-Scale 引擎，该服务在 Llama 3.1 7B 和 70B 模型上别离完结了 1800 token/s 和 450 token/s 的超快推理速度。与市面上用英伟达 GPU 构建集群的干流推理厂商比较，Cerebras Inference 获得了 20 倍以上的速度进步，为大模型推理树立了新的速度规范。这一开展既为用户带来了挨近秒速推理的极致体会，也点着了业界对存算一体技能的热心。

大模型推理的速度退让

在与 ChatGPT 等大言语模型运用交互时，咱们能够观察到它们遍及选用了流式呼应形式 —— 快速输出第一个词，然后逐字逐词继续，模仿人类边考虑边说话的进程，直到数十秒后才完结整个答复。这种形式表面上带来了动态和沉溺式的交互体会，实则是对推理速度约束的一种退让。本质上，这反映了大模型年代的"智能时延"问题，即 AI 的智能表现受限于其推理速度。

序列生成与并行核算的错位

图形处理器（Graphic Processing Unit，简称GPU）凭仗其强壮的并行核算才干，在深度学习范畴获得了巨大成功，也因而成为大模型推理的默许硬件挑选。但是，依据 Transformer 架构的大言语模型在推理进程中选用自回归的序列生成办法，即每个词的生成都依靠于之前生成的词，这种次序依靠性使得核算进程难以完结实在的并行化。

虽然 GPU 能够经过批处理、模型并行等技能来进步功率，但这些办法首要是添加推理吞吐量，即一起呼应更多恳求、服务更多用户，而非从根本上处理单次推理的速度和时延问题。这解说了为什么即使运用最先进的 GPU，大模型的推理速度依然无法满意实时交互的需求。

序列生成暗示，译自 Cerebras 博客

冯·诺依曼架构的”存储墙“问题

从更深层次来看，大模型推理速度的瓶颈源于底层核算架构的固有约束，首要表现在存算交流带宽方面，这便是所谓的"存储墙"问题。在传统的冯·诺依曼架构中，核算单元和存储单元是别离的，数据需求在这两个单元之间不断移动，这个进程会耗费很多时刻和动力。而跟着处理器速度的不断进步，内存拜访速度便成为了约束体系功用的首要因素。

冯·诺伊曼架构暗示

这种状况在大模型推理中表现得尤为杰出。大言语模型一般包括数百亿乃至上万亿参数，这些参数需求频频地在内存和处理器之间传输。现代核算机体系多在存算链路上装备了高速缓存，以缓解内存带宽瓶颈、进步存算交流功率。但受限于功用与本钱，这些缓存最大不过百兆左右，无法载入整个大模型。因而，大模型推理进程面对不可避免的很多存算交流。频频的数据移动不只带来了功用瓶颈，还导致了显着的能耗问题，既添加了运营本钱，也约束了体系的扩展性。

这些应战标明，只是依托进步处理器频率或优化软件算法现已难以获得打破性开展。在当时的硬件与算法条件下，进步大言语模型的推理速度有必要经过打破核算架构与算法规划之间的错配，以战胜硬件架构固有的瓶颈。这给未来核算架构的开展指明晰方向，为存算一体技能的探究奠定了根底，也解说了为何越来越多的企业开端投身其间。

存算一体打破带宽魔咒

英伟达借 HBM 拉近存算间隔

作为 GPU 芯片的领导者，英伟达在近两代芯片规划中虽然仍沿袭传统的核算架构，但经过引进高带宽内存（HBM）技能完结了"近存核算"，以缓解存储墙问题。HBM 技能选用笔直堆叠的内存芯片规划，合作超宽数据总线和硅中介层，显着进步了内存带宽。这使得英伟达的高端 GPU，如 A100 和 H100，能够完结极高的数据吞吐量，大幅进步了大模型处理才干。

存算带宽暗示，译自 Cerebras 博客

但是，HBM 技能虽然带来了显着的存算带宽进步，在必定程度上缓解了带宽压力，但并未从根本上改动核算和存储别离的架构规划。

Groq 和 Cerebras 以存内核算破局

干流推理服务商速度与价格比照，译自 Artificial Analysis

同为芯片独角兽，Groq 在 2024 年 2 月对外发布 GroqCloud，能够供给高达 250 token/s 的Llama 3.1 70B 推理服务，速度比较 GPU 计划简直进步了一整个量级。之所以能到达这样的速度进步，是因为 Groq 独有的全新芯片规划计划 —— 言语处理单元（Language Processing Unit，简称LPU）。LPU 选用了类似于超长流水线的一维处理器阵列结构，其间每个处理单元都装备了本地内存，能够就近获取所需数据，大大减少了模型参数的转移间隔，使得数据能够在处理单元之间高效活动。叠加上准确的静态调度机制，LPU 保证每个处理单元的使命被准确组织，最大极限地减少了等候和抵触。这种规划特别合适处理大言语模型中的序列生成使命，因为它能够高效处理具有强依靠性的接连操作，并且避免了频频拜访芯外贮存，然后带来显着的推理速度收益。

比较 Groq，Cerebras 的底层技能路途——Wafer-Scale Engine（WSE）——则更为急进。WSE 能够被视为一个巨大的"核算工厂"，其最大特点是其惊人的尺度，单个芯片简直覆盖了一整块晶圆的面积。在这个超大芯片上，核算单元和内存单元高度集成，形成了一个密布的网格结构。这种规划使得数据能够在极短的间隔内涵核算和存储单元之间传输，从根本上下降了数据移动的本钱。比照英伟达 H100 GPU，Cerebras 第三代 WSE 能够获得数千倍的带宽速度进步，也解说了 Cerebras Inference 服务为何能在 Llama 3.1 70B 上获得 450 token/s 的推理速度，到达了 GPU 计划的 20倍以上。

Cerebras WSE 与英伟达 H100 存算带宽比照，引自 Cerebras 博客

存算一体推理商场尚处孕育期

虽然存算一体推理芯片展现出巨大潜力，但其开展仍面对着商场检测。现在，该技能面对两个中心应战。

推理尚非算力开销主阵地

首要，在前沿模型研制实在收敛之前，大模型相关算力的开销仍将首要会集在练习方面。作为大模型智能出现的中心驱动力，Scaling law 没有显着展示出已达拐点的信号，而致力于多模态、杂乱推理等才干的探究研讨也方兴未已。依照 OpenAI 引领的模型迭代节奏，在可预见的三至五年内，环绕模型才干进步的练习仍将吸纳大部分算力资源。

虽然曩昔一年产业界对基座模型的出资热心逐渐趋于镇定，但一二线厂商之间的竞赛正在逐渐加重。无论是 Meta 引领的开源实力，仍是 Google 坚持不能落后的大模型军备竞赛，都在推进练习算力需求的继续添加。只要经过绵长的探究期，当基座模型的练习思路逐渐安稳、模型才干添加进入渠道期时，推理与练习的算力开销比才或许跳过拐点。到时，打破推理速度瓶颈的优先级和迫切性将会进步，推理芯片也将随之迎来开展机会。

超快推理的优先级与本钱

虽然以 Groq 和 Cerebras 为代表的存算一体推理服务带来了数十倍的推理速度进步，但干流推理服务商仍简直清一色地在运用英伟达 GPU。

这一方面是因为现在在实在的推理服务供给场景中，厂商对吞吐量的寻求高于超快推理。吞吐量的进步意味着在单位时刻内可呼应更多用户恳求，可直接转化为服务收益；而更快的推理速度，当时仍首要表现在对用户体会的进步，仅在部分对时延有高要求的场景才干显示共同优势。

另一方面，GPU 计划或许仍具有本钱优势。因为“N卡生态”更为齐备，组成集群、算力分配、练习微调各环节东西链相对丰厚，各类提效优化的技能计划非常老练，针对吞吐量优化的 GPU 计划，比较 Groq LPU 计划更具本钱优势。

Groq 与英伟达 H100 推理计划简化 BOM 本钱比照，译自 SemiAnalysis 测算

因而，存算一体芯片既需经过技能晋级不断下降本钱，也要凭借超快推理服务着力培养商场，增强用户的速度感知与时延讨厌。未来，争夺将超快推理推行为整个职业的默许选项。

未来秒速推理带来新的幻想力

当推理速度到达每秒近千 token 时，一个完好的模型呼应能够在眨眼间生成结束。这适当于将推理时延紧缩至与网络传输推迟适当的水平，完结实在意义上的"秒速推理"。这一打破必将为大模型运用拓荒新的或许，也会给人机交互带来全新的幻想空间。

模型考虑更灵敏

超快的推理速度首要意味着现有大模型交互功率的腾跃，使得开发者能够在极短时刻内完结大模型运用的测验和调优循环，不只能加快开发进程，还有助于更深化全面的模型评价和运用优化。

其次，推理速度的进步能够显着下降模型"考虑"本钱。当时，思想链（CoT）、思想树（ToT）等办法可用于引导大模型在生成的一起考虑，然后获取更优答案，但这些办法会显着添加呼应时延。当推理速度满足快时，CoT、ToT 乃至更杂乱办法的引导本钱将变得能够疏忽。乃至能够让模型在极短时刻内生成多个备选答案，然后挑选最佳回复。这种"瞬时的深思熟虑"，能够在有限的时延条件下大幅进步答复的质量和相关性，很或许会成为模型的默许装备。

在灵敏考虑的支持下，Agent 类杂乱运用也将迎来新的开展机会。现阶段 Agent 落地的首要阻力有两个：杂乱使命的拆解规划才干和多步流程的交互呼应体会。前者依靠模型才干的进步和考虑引导的辅佐，后者将能在推理速度的进步下得到显着改进。

实时交互更可及

秒速推理将大大缩小人机交互的时刻差，为更天然、更流通的交互体会铺平了路途。

首要，大模型语音对话的时延将变得满足可控。现阶段干流的 ASR（语音辨认） - LLM - TTS（文本组成语音）三段式语音交互计划，存在不小的时延，用户说话后往往需求数秒的等候才干收到回复，难以完结近乎天然的对话体会。而当推理速度得到十倍以上的进步，全体时延便可被紧缩至秒内，完结近实时的语音交互。

另一个充溢幻想力的场景是运用的实时动态生成。大模型的代码生成才干一直在不断进步，但受限于推理速度，运用仍以补全代码和修正代码为主。而在完结了秒速推理后，代码生成能够完结腾跃，在与用户对话的进程中，大模型能够实时生成和调整用户界面，乃至是整个软件的功用。幻想一个能依据用户目的即时改变的运用界面，或是能在对话中动态创立的定制软件东西，这或许会从头界说未来软件的开发和运用办法。

假如进一步将这样的超快推理运用于增强实际和虚拟实际中，AI 将能够实时生成和调整虚拟环境、人物对话和交互逻辑，创造出愈加丰厚和个性化的沉溺式体会。

结语

OpenAI 在 2024 年头发布的文生视频大模型 Sora 以其冷艳的演示作用震慑了科技界。但是，因为模型杂乱度带来的巨大核算量，其推理本钱难以紧缩至可控规模，致使这一打破性技能迟迟无法揭露上线。据悉，OpenAI 正在探究更先进的芯片规划计划，以下降推理本钱、进步推理速度，已开始展示出潜力的存算一体技能，很或许成为其要点研讨的方向。存算一体不只要望大幅进步推理速度，还或许彻底改动 AI 体系的规划理念，使得更杂乱、更强壮的 AI 运用成为实际，成为撬动下一代 AI 革新的支点，为人工智能的未来开展拓荒一条全新的路途。经过继续的技能创新和商场验证，存算一体有望成为推进 AI 运用更广泛落地的要害推手，为人类社会带来更智能、更高效的技能体会。

本文为专栏作者授权创业邦宣布，版权归原作者一切。文章系作者个人观点，不代表创业邦态度，转载请联络原作者。如有任何疑问，请联络editor@cyzone.cn。