GPU硬通货化的背后,存在着什么更深的隐喻?

陈永伟/文

近日,这位AI算力新秀在自己的推特上分享了一则消息:该公司刚刚通过抵押英伟达获得了23亿美元融资,并将在年底前用这笔钱购买更多的电脑。 新建10个数据中心。

一位在国内某大型互联网公司工作的朋友转发该消息后评论道:“我只听说过房地产公司抵押房屋获得贷款,然后用贷款的钱继续盖房子。这种抵押GPU借钱,这是我第一次看到用借钱继续购买GPU的做法。”

一般来说,同样的电子产品年底的价格会比年初低很多。 因此,几乎没有人会购买电子产品来保值,也很少有金融机构愿意接受电子产品作为抵押品。 然而这些体验在 GPU 面前都失败了。 如今,似乎整个市场都在争夺GPU。 在eBay平台上,芯片的价格已提高至每片45,000美元。 两三个月前,其价格还在3.6万美元左右。

GPU 到底是什么? 为什么在AI时代,GPU成为人们竞相争夺的硬通货? 它的价值从何而来? 能持续多久? GPU硬通货背后还存在什么更深层次的隐喻? 我们来一一谈谈。

GPU的由来

众所周知,GPU是英文“图形处理器”(t)的缩写。 从这个名字不难知道,GPU最初并不是用来执行AI相关任务的,而是用来处理图形的。

20世纪80年代以来,随着计算机辅助应用(CAD)、地理信息系统(GIS)等技术的发展,使用计算机处理图形的需求开始增长。 尤其是电子游戏产业的异军突起,培养了庞大的计算机图形处理用户群体。 然而,作为计算机处理核心的部件CPU在处理图形方面效率不高,这就导致了专门处理图形任务的计算部件的出现。

1983年,GPU一词首次出现在《计算机世界》杂志上发表的一篇介绍Tek-图形终端的文章中。 不过,这个GPU并不是那个GPU,它的全称是。 这类所谓的GPU虽然可以处理2D图像,但由于当时缺乏光影转换(trans-,简称T&L)组件,它们无法独立处理3D图形,必须与CPU配合使用。 直到1910年代,图形处理组件中才加入了T&L组件,现在人们熟悉的GPU才正式出现。

关于谁是当前意义上的GPU的发明者,业界一直存在争议。 一种观点认为GPU的发明权应属于美国硅谷图形公司(SGI)。 16年,SGI推出了可以实现硬件T&L的图形处理器,已经具备了人们现在认为的GPU的主要功能。 不过,由于它主要用在任天堂游戏机上,所以很多人不愿意承认它是真正的GPU。 另一种观点是,第一个 GPU 是由一家名为 的英国公司推出的。 1997年,它在双芯片处理器中添加了具有T&L功能的引擎,并将该处理器命名为“几何处理器”(-,也称为GPU)。 但由于其专注于CAD这个狭窄的市场,影响力并不大,因此并没有多少人认为它是GPU的发明者。

相比SGI和SGI,更受认可的GPU发明者是。 在20世纪90年代的半导体市场上,实际上是一个后来者。 当时这个市场的基本格局是AMD和Intel两大巨头的对抗,而他们竞争的焦点就是CPU。 那几年,Intel的奔腾系列CPU和AMD的Am386、Am486系列CPU可以说是你我之战,其他公司只能袖手旁观诸神大战。

在夜市招聘网工作了1年、3年之后,就在整个市场都认为在巨头主导的市场中很难抓住机会的时候,曾在该公司工作的黄仁勋却选择了辞职,远赴海外创办英伟达。 不过,黄仁勋看好的不是CPU,而是图形加速卡。 当时,这似乎是一项非常不受欢迎的业务。 虽然随着PC和游戏机的普及,很多人已经意识到图形处理的重要性,但大多数人认为这个任务应该由CPU而不是专门的图形处理硬件来完成。

但黄仁勋却不这么认为。 他坚持对图形处理硬件的未来持乐观态度。 他的判断很大程度上来自于他对当时游戏行业的观察。 13年,一款名为《德军总部3D》( 3D)的游戏诞生,引起了市场对3D游戏的极大兴趣。 但事实上,《德军总部 3D》并不是真正的 3D,它只是用 2D 纹理来伪装 3D 效果。 在黄仁勋看来,既然单靠CPU还不足以支持真正的3D游戏,那么就只能借助辅助加速硬件来实现。 当然,虽然当时没有多少人看好硬件加速市场的潜力,但黄仁勋并不是唯一一个。 比如早期最重要的竞争对手3dfx也很早就押注了这个市场,并一度凭借其首款()加速卡统治了全球市场。

应该说,黄仁勋确实是幸运的。 创业初期,他获得了日本游戏机公司世嘉的芯片研发订单,并获得了700万美元的资金支持。 但这种好运并没有持续多久。 由于他在3D图形技术选择上的失误,与微软的新标准不兼容,导致最初的产品NV1开局不佳,销量不佳。

经过一番调整,终于走上了正轨。 英伟达用世嘉支付的研发费用开发了它。 坦白说,单就性能而言,它不如,但3dfx犯了一个致命的错误——坚持使用自己的开发工具,拒绝使用它们。 英伟达及时吸取了教训,选择拥抱微软。 显然,在微软称霸PC系统的时代,这一策略是非常明智的,也因此畅销。

18年,与台积电达成合作,开始采用“无工厂”()模式。 此后,英伟达只负责芯片的设计和销售,生产完全委托给台积电。 通过这种模式,英伟达得以轻装上阵,将更多的精力投入到研发和市场研究上,从而推出了一系列爆款产品。 凭借这些产品,终于在图形加速市场站稳了脚跟。

不过,黄仁勋的野心当然不止于此。 在他看来,图形加速硬件不应该只是CPU的助手,而应该有自己独立的作用。 在这一理念的指导下,于1999年推出了它的显卡。这款显卡不仅将T&L功能集成到其中,而且实现了独立于CPU的T&L处理。 它还集成了立方环境材质贴图、顶点混合、纹理压缩和凹凸贴图、双纹理四像素、256位渲染引擎等先进技术。 同时还设计了可编程加速功能。 在这些技术特性的加持下,其对一些高端3D游戏的支持能力远胜于当时流行的3D图形加速卡。 一经推出便一炮而红,迅速成为广大爱好者青睐的游戏神器。 也趁热打铁,利用广告攻势将“集成了T&L、三角形设置/裁剪和渲染引擎的单芯片处理器,每秒能够处理至少1000万个多边形”定义为GPU ——如果严格遵循这个定义,那么确实是GPU的发明者。

英伟达很快成为这个市场的赢家和领导者。 2000年,直接收购了主要竞争对手3dfx,进一步巩固了其市场主导地位。 所谓历史是胜利者书写的。 时至今日,当我们在搜索引擎上搜索GPU的发明者是谁时,已经成为默认答案。

从游戏好友到AI神器

那么,GPU是如何从游戏神器转变为AI神器的呢? 在解释这个问题之前,我们需要先简单介绍一下GPU的结构。

总体而言,CPU和GPU都包括运算单元(IT,简称ALU)、控制单元(简称CL)、高速缓存(Cache)和动态随机存取存储器(DRAM)。 不过,两者中这些成分的比例是不同的。 CPU中,控制单元和存储单元所占比例较大,而作为计算单元的ALU所占比例较小; 而在GPU中,情况恰恰相反。

这种结构上的差异决定了CPU和GPU的功能差异。 由于CPU具有较强的控制和存储能力,可以进行较为复杂的计算,但能够同时执行的线程却很少。 相反,GPU拥有大量的计算单元,使其能够同时执行多线程任务,但每个任务都相对简单。 打个比方,CPU就是一个博士。 他精通数学,从微积分到线性代数无所不通。 然而,即便如此,他也很难做到一万次四算术运算; 而GPU则是一群只会四种算术运算的小学生。 ,虽然他们不懂微积分和线性代数,但是人多而且厉害。 如果他们一起工作,一万四次算术运算可以在几分钟内完成。

由于图形处理过程涉及到许多图形和不同颜色单元的颜色变换,GPU的特性使其天生适合用作图形处理硬件。 当深度学习出现时,人工智能专家很快发现GPU也适合训练神经和应用网络模型。 因为在深度学习模型中,最重要的运算是矩阵运算和卷积,而这些运算从根本上可以分解为简单的加法和乘法。 由此,GPU找到了新的“就业”空间,开始广泛应用于人工智能领域。 它从游戏神器转变为AI神器。

对于GPU市场之王英伟达来说,上述AI领域的趋势简直就是天上掉下来的一块馅饼。 也抓住了这个机会。 2007年,提出了GPGPU这一“通用GPU”()架构,将原本专用于图形处理的GPU转变为更适合AI计算的GPU。 同时,还推出了GPGPU计算统一架构(-ture,CUDA)平台,允许程序员使用类C语言编写GPU并行计算代码,并提供大量库函数和工具来帮助优化GPU 计算。 通过这些努力,英伟达成功将GPU所能处理的问题从图形扩展到通用计算,从而抓住了市场机遇,率先从游戏领域的硬件霸主转变为AI领域的“军火商”​​场。

在各大AI巨头争夺大模型市场的同时,这家“军火商”却坐享其成,成为这场战争的最大赢家。 他不仅赚了很多钱,而且市值也突破了千万。 突破1亿美元大关,并凭借其分配GPU的力量,在一定程度上成为决定AI战争最终方向的幕后之手。

从AI神器到硬通货

现在我们回到本文开头的问题:为什么GPU没有遵循一般半导体产品的价格下降模式,反而成为了一块硬通货?

在市场经济条件下,某种商品的价格能够保持高位坚挺的原因只有一个:供不应求。 要了解 GPU 为何成为硬通货,您必须了解其供给和需求。

1、GPU需求情况

谁在购买 GPU? 对于这个问题,马斯克曾给出过答案:“在这个时间点上,似乎每个人和他们的狗都在到处寻找GPU。” 马斯克的回答当然被嘲笑了,但整个 AI 圈子里的每个人都真的为 GPU 疯狂了。

最近社交新闻网站上流传的一篇文章统计了几家大公司的GPU需求。 根据这篇文章, 在训练 GPT-4 时使用了 10,000 到 25,000 张图像; 在训练 AI 时使用了约 21,000 张 A100 图像; Tesla 使用了大约 7,000 张 A100 图像; 开发人员使用了约5000张A100。 此外,阿联酋阿布扎比技术创新学院研制的-40B使用了384张A100图像进行训练; AI 初创公司正在使用 3,500 张图像来训练性能与 GPT-3.5 相当的大型模型。 根据马斯克的爆料,正在训练的 GPT-5 可能使用了 30,000 到 50,000 张图像。 此外,还有很多初创企业也需要GPU,需求量从几百到几千不等。 所有这些需求加在一起,就是一个非常大的数字。

这里需要注意的是,在GPU市场中,不同类型GPU的需求差异很大。 目前,市场上最流行的GPU是的H100。 据介绍,这款专为人工智能设计的GPU芯片采用新一代架构,拥有800亿个晶体管。 它在深度学习模型的训练和推理方面都具有非常强大的能力。 在各种第三方测试中,H100也取得了非常好的成绩。 例如,在最近的一次测试中, H100集群在全部8个项目中都获得了第一名,仅用了11分钟就完成了GPT-3的训练,在8秒内完成了BERT模型的训练。 火车。

得益于H100的出色表现,几乎所有AI公司都对它虎视眈眈。 据网上流传的估计:可能需要5万辆H100; 可能需要25,000人; 22,000; 微软的Azure云、谷歌云、亚马逊的AWS、四大云服务商可能各需要3万块; 而其他私有云可能总共需要10万块; 而其他企业可能各需要1万件——以上需求加起来,H100的总需求量超过43万件。 需要注意的是,上述估计不包括中国大型科技公司和包括摩根大通在内的众多金融公司的需求。 如果考虑到这些公司的需求,H100的需求量将更加惊人。

有人可能会问,同样是GPU,为什么H100比其他型号的GPU,比如A100更受欢迎呢? 这实际上既是一个技术问题,也是一个经济问题。 一般来说,虽然都是GPU,但是不同型号的GPU的主要功能是不同的。 一般来说,在AI领域,GPU主要有两个用途:一是(),利用训练好的模型来生成我们需要的结果和内容;二是(),即使用经过训练的模型来生成我们需要的结果和内容; 另一个是(),使用样本数据来训练AI模型。 。 由于任务不同,因此在设计过程中必须安排不同的架构来支持它们。 一般来说,推理过程通常需要高效的计算能力和低延迟的响应速度,因此推理芯片的设计重点关注高效的计算单元和能耗控制; 而训练过程则需要更高的计算能力和存储容量,因此训练芯片的设计注重高度并行化和大规模存储。

得益于更好的架构设计,H100无论是推理能力还是训练能力都优于A100。 测试结果显示,其16位推理速度约为A100的3.5倍,16位训练速度约为A100的2.3倍。 从成本角度来看,H100约为A100的1.5至2倍。 可见,虽然H100的价格比A100贵一些,但在性价比方面,H100具有更大的优势。

这里需要指出的是,Chat-GPT流行后,大量公司投入大型模型的开发。 对于这些公司来说,能够更早地开发大型、高质量的模型使他们在竞争中处于更有利的地位,这激发了他们对能够更快地训练模型的工具的渴望。

2. GPU供应状况

现在价格已经被逼到天上,供应商应该抓住这个机会出售。 但有趣的是,主要GPU供应商增加供应的速度缓慢,迫使一些AI公司甚至去二手市场购买旧GPU。 不是我不想,而是我真的做不到。

对于包括GPU在内的半导体产品,整个供应链可以分为三个环节:上游主要指EDA、IP授权和GPU芯片设计,中游主要指GPU制造和封装测试,下游主要指集成商和终端销售。 其中,目前GPU卡问题最严重的部分在于供应链中游。

众所周知,芯片生产对工艺要求非常高,因此符合生产条件的厂家很少。 以的H100为例。 正如我们前面提到的,采用“晶圆厂”模式后,其制造完全委托给台积电。 不过,即使是台积电,也只有四个工艺节点:N5、N5P、N4、N4P(注:工艺节点指的是电路铸造的工艺节点,通常以纳米为单位来衡量,例如N5指的是5纳米)工艺节点。工艺节点越小,可用于制造 H100 的集成电路就越多。 由于台积电出色的制造技术,苹果、高通等公司都委托其代工制造,因此英伟达不得不与这些公司共享上述工艺节点。 此外,台积电在封装工艺上还面临产能限制。 这些因素综合在一起,导致H100在供应链中游面临着非常严峻的瓶颈。

同时还需要注意的是,GPU的零部件供应也在一定程度上限制了其供应。 仍以H100为例,其使用的关键部件高带宽内存(简称HBM)面临着严峻的供应限制。 目前,在H100上使用的HBM几乎全部来自韩国公司SK海力士半导体(SK Hynix )。 但SK海力士生产HBM的能力有限,这对H100的生产造成了直接限制。 有传言称可能会向三星和美光采购部分HBM,但这两家公司的产能仍然有限,因此扩大采购范围能在多大程度上缓解HBM的短缺仍然是一个问题。

综合以上分析我们可以看到,虽然我们面临着GPU需求的激增,但由于供应链的限制,GPU供应量短期内很难大幅增加。 目前看来,生成式AI驱动的算力需求增长将持续很长一段时间,因此至少在这段时间内,GPU供给将持续超过需求。 在需求规律的影响下,这导致了GPU等半导体产品的价格出现了非常异常且持续的上涨。 因此,它可以在融资中起到抵押品的作用。

从财富的源泉到权力的魔杖

当人们谈论GPU如何成为硬通货并在金融市场上用作抵押品时,他们可能忽略了另一个更深层次的隐喻,那就是随着GPU的作用在AI时代越来越凸显,它似乎正在变得越来越重要。 AI领域的力量源泉。

7月25日,微软公布了2023财年第四季度财务报告。得益于与微软和微软的合作,微软的云业务在本财季出现了大幅增长,导致公司营收大幅提升。 与去年相比,其营收同比增长8%,净利润同比增长20%。 在展示其骄人成绩的同时,微软也在财报中指出了一些潜在的风险,其中之一就是GPU风险。 微软指出,GPU已成为支持其云业务快速增长的关键原材料。 如果GPU的供应无法保证,其服务质量可能会受到很大影响。

为了缓解对GPU的渴求,微软不遗余力。 一方面,它直接向示好,要求购买更多GPU。 另一方面,它也想了一些迂回的办法。 例如,不久前,它与本文开头提到的抵押H100借钱购买H100的算力提供商达成协议,并同意继续向后者提供数百亿金额的算力供应商。未来几年。 投资网络投稿共同建设云计算基础设施。 原因是它与关系密切,并且在最近的B轮融资中获得了的投资。 凭借这一关系,英伟达承诺优先供应 GPU。 因此,对于微软来说,投资就是为了接近,这将使其有机会获得更多H100和A100的使用权。 现在看看微软的良苦用心,再想想英伟达创业时为了生存不得不屈服于微软制定的标准,不禁感叹英伟达用了30年才走到今天。河东30年,河西30年。

当然,我们还可以举出更多GPU供应商掌控AI战局的案例。 一个典型的例子就是我们之前玩的。 该公司由联合创始人穆斯塔法·苏莱曼 ( ) 创立并担任首席执行官,最近进展顺利。 与其他大型模型公司不同,它并不想创造无所不能的通用人工智能(AGI),而是将注意力集中在个人智能(PI)领域。 它的主要产品是一个名为 Pi 的聊天机器人,功能也比较单一,目前只有聊天功能。 显然,在目前的AI机型中,这款产品并不突出。 然而,这样一家看似普通的公司,其估值却达到了40亿美元。 除了其拥有宝贵的智力资源之外,一个重要的原因就是GPU。 不久前,其公开宣布将建设2.2万颗H100芯片的超级计算集群,支持新一代大型AI模型的训练和部署。 该集群的集成数量已经完全超出了 5月份宣布的计划。

它是如何完成的? 只要我们看看它的投资者,答案立刻就揭晓了。 是的,其投资者之一就是英伟达。 另外值得一提的是,在这个集群的建设过程中,还有另一个重要的合作者——。 正如我们所看到的,这也是 的兴趣社区。 由此可见,及其GPU应该在其流行背后发挥着关键作用。

记得今年3月,各大生成式AI公司激烈争夺的时候,有 小编来采访我。 她问道:“在你看来,谁会是这场人工智能战争的最终赢家?微软、谷歌,还是……?” 我当时的回答是:“我不知道谁会赢,但最后的赢家一定是!” 现在看来,这个答案是完全正确的,但是,如果她现在再问我这个问题,我会补充一下答案:也许,它也可以使用 GPU 投票来决定谁会是获胜者。

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender