在生成式人工智能(generativeAI)技术的带动下,科技业界正掀起一波淘金热潮,各企业莫不希望抢占先机。值得注意的是,在背后驱动这许多AI应用的,是NVIDIA的硬件产品,特别是于2020年推出、大受市场青睐的A100GPU。

NVIDIA执行长黄仁勋在法说会上大谈AI,并提到,与NVIDIA参与打造的AI基础建设相关的活动,以及与利用NVIDIAGPU架构Hopper与Ampere进行推论、影响大型语言模型的相关活动,都在过去2个月以来,呈爆发式成长。

根据CNBC引述NewStreetResearch统计资料,NVIDIA可供机器学习应用的GPU,全球市场占有率达到95%。相较于部分软件可能只要偶尔使用一小段时间的运算能力,机器学习工作负载往往会占掉计算机所有运算资源,有时持续几小时甚至几天时间。因此,旗下拥有热门AI产品的企业,往往需要更多的GPU,来应付尖峰使用时段,或是拿来改良模型。部分AI相关企业,会以能够使用到多少数量的A100,作为进步的标志,可见这项产品的代表性。

根据截至2022年11月的StateofAI报告,针对公有或私有云端,以及各国家拥有的高效能运算(HPC)系统为对象进行统计,使用最多A100的业者是META,达2.14万个,其中私有云端占1.6万个,其余5,400个是公有云端。不过此数据并未计入没有公开资料的云端服务供货商。

A100 GPU大约1万美元,并不便宜,由8个A100组成的DGXA100系统建议售价,甚至接近20万美元。NewStreetResearch据此推算,导入微软(Microsoft)Bing搜索引擎的ChatGPT模型,假设需要8个A100,以在1秒之内针对1个问题做出1个回答;按这个速度,若需要服务所有Bing使用者,则得使用超过2万台的DGX服务器,因此光这些基建费用就至少40亿美元。如果按照Google搜索引擎的规模,则可能高达800亿美元。

另外,最新版本的图像生成器StableDiffusion,是通过256个A100训练的。据Stability AI透露,单是模型训练就花了60万美元,但相比同业已经算非常便宜。而且这个费用还不包括推论与模型部署的部分。

黄仁勋受访时也称,以这类模型所需的运算量而言,NVIDIA产品其实并不昂贵——假设仰赖CPU运作的数据中心需要10亿美元,透过NVIDIA的产品,则有办法降到1亿美元;如果再把运算资源放到云端供100家企业分享,则这成本就几乎可以忽略。黄仁勋强调,比起CPU,新创企业若善加利用NVIDIAGPU来训练模型,可以省下很多成本。

继A100之后,刚刚在2022年推出的新一代产品H100,是NVIDIA首款专为重要性与日俱增的transformer深度学习模型而设计的数据中心GPU。NVIDIA还曾表示,未来的目标,是把AI训练速度,再提高百分之100万以上。