英伟达的“镰刀”不是AI芯片

日期：2023-10-13 14:01:12 / 人气：382

英伟达再次被推上风口浪尖，这一次不是因为其飙升的性能，而是因为曾经握在手中的微软、OpenAI、谷歌等人工智能先驱的“不忠”。
资料显示，微软计划在下个月的年度开发者大会上推出首款专为人工智能设计的芯片。这种芯片是为训练和运行大型语言模型(LLM)的数据中心服务器设计的。OpenAI也在探索做自己的人工智能芯片。公开资料显示，OpenAI至少投资了三家芯片公司。
谷歌自研芯片TPU迭代到v5代。此前有分析师爆料称，谷歌拥有的计算资源比OpenAI、Meta、Amazon、甲骨文和CoreWeave加起来还多，其优势来自TPU的庞大数量。
关于这些企业为什么要在市场上打造核心，已经有很多分析了。主要原因是英伟达的GPU太贵，产能不足。通过自研芯片，有望削弱英伟达在人工智能芯片领域的定价权，同时比没有自研芯片的企业更具战略意义。
然而，自研芯片真的能迫使英伟达放慢镰刀吗？
市面上的H100 GPU已经涨到了原价的两倍，而且还是供不应求，这是事实。就连自研芯片已经“上线”的谷歌，也还在大量采购英伟达芯片。
为什么？
因为英伟达的GPU销量太亮眼，所以往往被简单定义为硬件公司。但很多人不知道的是，英伟达的软件工程师比硬件工程师还多。
这句话背后的意思是，英伟达真正的护城河从来不是来自于层出不穷的新芯片(当然这也很棒)，而是来自于软硬件生态。
而CUDA就是这个护城河的第一堤。
01、英伟达真正的王牌——CUDA
2019年，英伟达CEO黄仁勋在密尔沃基理工学院介绍企业发展史时这样说道。
“一个又一个应用，一个又一个科学领域，从分子动力学和计算物理到天体物理、粒子物理和高能物理，这些不同的科学领域开始采用我们的科技，因为这是向前发展的最佳方案。我们为此深感自豪。”
英伟达引以为傲的这项技术就是CUDA。
CUDA是Nvidia推出的并行计算架构。多亏了它，GPU才能打败CPU，成为今天运行大数据计算的基础。同样的任务下，支持CUDA系统的NVIDIA GPU比CPU快10到100倍。
CUDA为什么会有这种魔力？
CPU和GPU都是计算机处理器，都可以执行计算任务。区别在于CPU更擅长线性计算，而GPU更擅长并行计算。业内一个常见的类比是，CPU就像大学教授，可以独立解决各种复杂的问题，但要循序渐进。GPU就像一群小学生，单核计算能力不如CPU，但优势在于核的数量巨大，可以同时计算。
而CUDA则是调动这群小学生的指挥棒。在CUDA的中介下，研究人员和程序员可以通过编程语言与硬件设施对话，从而将复杂的数学问题转化为多个简单的小问题，分配给GPU的多个计算核心。
正如黄仁勋所说，CUDA问世后已成为“科学发展的最佳解决方案”，其巨大的计算能力成为构建超级计算机的首选。
10月11日，美国能源部下属的橡树岭国家实验室宣布，他们的超级计算机“峰会”峰值浮点运算速度达到每秒20亿次，是“神威·太湖之光”超级计算机的近两倍。
这个计算巨兽配备了近28000个英伟达GPU。橡树岭国家实验室是第一个大批量采用英伟达的CUDA+GPU包的研究所。
事实上，自2006年英伟达推出CUDA以来，在所有涉及计算机计算的领域，几乎都被塑造成了英伟达的模样。航空航天、生物科学研究、机械和流体模拟、能源勘探等领域80%的研究都基于CUDA。
而且在大模式热潮的带动下，CUDA生态合作社的规模还在翻倍。
根据英伟达2023财年年报，目前有400万开发者与CUDA合作。英伟达在12年达到了200万开发者，在过去的两年半时间里，这个数字翻了一番。目前CUDA的下载量已经超过4000万次。
与此同时，NVIDIA还在扩大CUDA生态系统，并推出了一系列软件加速库CUDA-X AI。这些库基于CUDA构建，为深度学习、机器学习和高性能计算提供必要的优化功能，是数据科学加速的端到端平台。
CUDA生态如火如荼，与之互补的GPU成为消费者的首选，所以NVIDIA赚得盆满钵满。但是，面对这么大一块蛋糕，竞争对手自然不能只看一眼。
比如AMD推出了生态平台ROCm，也兼容了很多计算框架；OpenAI的Triton被认为是CUDA最有力的挑战者；OpenCL是由苹果设计、Khronos集团维护的开源架构，借鉴了CUDA的成功经验，尽可能支持多核CPU、GPU或其他加速器。Google用“TPU+TensorFlow+云”的模式吸引开发者，拓展客户。
然而，这些“理论上”的竞争者在实际工作中却暴露出种种问题。
今年2月，半导体研究和咨询公司Semi Analysis的首席分析师迪伦·帕特尔(Dylan Patel)写了一篇题为《英伟达在机器学习领域的CUDA垄断是如何打破的——开放Aitriton和Pytorch 2.0》的文章。
在文章的留言中，一位程序员说:
“我希望如此，但我非常非常怀疑。我用的所有东西都是基于CUDA的。其实在非NVidia硬件上是没有功能的。实践中的有效不同于理论上的有效。我用的很多东西理论上是支持ROCm的，但是实际操作中，你尝试使用的时候会遇到大大小小的错误，会死机或者不能正常工作。”
一线研究人员的言论证明，至少在现阶段，没有任何一家企业能与在软硬件两方面都占据头把交椅、耕耘市场近20年的英伟达相抗衡。
02.英伟达帝国诞生于《重建世界》
为什么NVIDIA只是拿着王牌CUDA？2006年CUDA问世，至今已近18年。为什么英伟达的护城河这么长时间没有被攻破，反而越来越宽？
这些问题背后都有一个默认的前提——CUDA是“正确”的方向。21世纪初，当英伟达孤注一掷的时候，黄仁勋对股东和市场重复这句话数千次。
如果我们想要一个美丽的世界，首先要做的就是模拟它。某种程度上，这种想法就是GPU时代的起源，模拟那些复杂的物理规律，以图片的形式呈现出来。但是那些模拟物理规律的应用不会从天上掉下来，需要有人一个一个去开发。
所以，即使GPU的计算能力在未来被证明超过CPU，但应用的匮乏、过于复杂的编程过程、底层语言表示的缺失，依然让程序员敬而远之。
2003年，英特尔推出了4核CPU，为了与之竞争，英伟达开始开发统一的计算设备架构技术，即CUDA。
这个想法是首席科学家大卫·柯克(David Kirk)博士提出的，后来他说服了黄仁勋，未来英伟达所有的GPU都必须支持CUDA。由于柯克在计算机高性能计算领域的重要作用，他后来被称为“CUDA之父”，并当选为美国国家工程院院士。
这些荣誉只是另一个故事。当时黄仁勋需要解决的问题是，如何让股东接受产品成本需要翻倍，从而争取一个回报期可能超过10年的未来。
事实上，围绕CUDA的质疑一直持续到AI时代前夕。英伟达的市值常年徘徊在10亿美元的水平，由于CUDA的额外成本对其业绩的拖累，其股价甚至跌至1.5美元。股东们一再表示希望他们将重点放在提高盈利能力上。
2010年，当时的CPU之王英特尔传出计划收购英伟达的消息。《芯片上的战争》描述道，“对英特尔来说，价格不是问题，而是给黄仁勋什么地位。但是双方一直没有达成一致，最后失败了。”
在市场看跌英伟达的那些年，黄仁勋从未质疑过CUDA的价值。
为了吸引开发者编写应用，展示GPU的优势，黄仁勋首先使用了当时拥有庞大游戏玩家市场的GeForce GPU作为安装CUDA的基础。后来，一个名为GTC的会议成立了，目的是在全世界不知疲倦地推广CUDA。
近年来，市场上最为人称道的一个案例是，2016年，黄仁勋亲自去了当时刚成立不久的OpenAI，展示了一个DGX-1，里面有八个P100芯片，是当时英伟达最强大的浮点计算GPU。
这一事件经常被解读为黄仁勋的先见之明，但对他来说，这无非是确保CUDA成为尖端科学研究人员最习惯的框架的又一次尝试。
对比英伟达的押注，是英特尔。
作为CPU时代的王者，英特尔本应成为英伟达最具竞争力的对手。
然而，2010年，在取消了集成CPU和GPU的独立显卡计划后，英特尔失去了对抗英伟达的兴趣(当然也可以说是因为纳米工艺的停滞而失去了信心)。首先，我试图收购英伟达，然后我转向在移动基带市场与高通竞争。2015年第一波人工智能热潮席卷而来的时候，从大梦中惊醒的英特尔收购了人工智能方向的芯片公司，将AMD的芯片并入自己的系统芯片。
可惜当时Nvidia的市场份额超过了60%，CUDA垄断已经成型。在GPU领域，英特尔已经没有资格和英伟达坐在同一张桌子上。
03年，DPU和DOCA，英伟达的新战场。
2020年，创投圈流行一个笑话。
“DPU是什么？”
“支付宝到账，1亿元。”
只要DPU这个关键词被触发，金钱就会滚滚而来。
这轮DPU热是由英伟达发起的。
2020年上半年，英伟达以69亿美元的代价收购了以色列网络芯片公司Mellanox Technologies，并于同年推出了BlueField-2 DPU，将其定义为继CPU和GPU之后的“第三款主芯片”。
那么DPU到底是什么？
DPU的核心功能是取代CPU，构建以数据为中心的计算架构。
众所周知，CPU的全称是中央处理器(central processing unit)，它不仅承担着运行应用程序和执行计算的任务，还扮演着数据流控制器的角色，在GPU、存储、FPGA等设备之间移动数据。
你可以简单的理解为，校长抛出一道难题后，老师(CPU)拆分，比较复杂的部分自己解决，轻松但繁琐的分发给学生(GPU)。以前题量比较少，老师还是可以分享的。但是随着题目数量的增加，拆分分发题目的时间实际上占用了老师大量的时间。
此时，再雇一个专门拆分分发试题的人，是提高系统整体运行效率的关键。DPU就是那个人。
近年来，随着数据中心建设、网络带宽和数据量的快速增长，以及CPU性能的缓慢增长，越来越难以满足未来计算芯片的需求，DPU应运而生。英伟达官网是这样定义的——DPU是数据中心基础设施的高级计算平台。
就像GPU有CUDA生态支持一样，黄仁勋也为DPU量身定制了一套软件生态，同步推出了DOCA。
借助DOCA，开发人员可以通过创建软件定义、云原生和DPU加速的服务来规划未来的数据中心基础设施，并支持零信任保护，以满足现代数据中心不断增长的性能和安全要求。
与CUDA不同的是，已经取得巨大成功的Nvidia不再需要煞费苦心地向市场证明自己独特的眼光。创投圈的DPU热足以说明这一点。
但是，有了它，DPU市场的竞争远比GPU激烈。
在国外厂商中，Marvell、Intel和AMD都开发了DPU或DPU的对位产品。国内也涌现出一批DPU初创企业，如鲍云智能、中科御树、芯启元、云脉新联、星云智联、大禹智信等。
云厂商方面，亚马逊的AWS和阿里云实现了大规模商用DPU架构，腾讯和字节跳动加入了DPU R&D大军，其中腾讯推出了两代DPUs、水杉和池杉。
这一次，英伟达能否凭借DPU+DOCA的软硬件生态，重现GPU+CUDA的奇迹？
国家和企业之间的计算能力竞争越来越激烈。在产能有限，DOCA生态尚未形成的情况下，对手并非没有机会。"

作者：天顺娱乐

英伟达的“镰刀”不是AI芯片

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →