大模子 AI席卷环球 ,推理创新的APP、场景落地越来越多。当练习 到达 肯定 阶段 ,推理肯定 会形成一个发作 。推理的产物 要起来,肯定 要把推理的本钱 降到本日 1/ 10 乃至 1/100。此时该怎样 选好 、用好 GPU ,进而影响推理本钱 ?
近来 , LiveVideoStack荣幸地约请 到PPIO的王闻宇老师担当 采访。本文将从芯片怪兽英伟达公司把持 式增长和美国“卡脖子”2个热门 题目 出发 。围绕已往 、如今 、将来 三个时间线为各人 梳理GPU的劈头 及其软硬件技能 的更迭;同时,深度分析 GPU主流产物 的参数和技能 发展近况 ,并连合 当前GPU的微架构计划 ,给出算力工程优化的几个思考 和有效 办理 方案。
媒介 :算力与GPU
算力,即盘算 本领 (Computing Power)。更具体 来说,算力是通过对信息数据举行 处理 惩罚 ,实现目标 结果 输出的盘算 本领 。
最早的算力引擎。是人类的大脑,厥后 演变成 草绳 、石头、算筹(一种用于盘算 的小棍子)、算盘。到了20世纪40年代,天下 上第一台数字式电子盘算 机ENIAC诞生 ,人类算力正式进入了数字电子期间 。再厥后 ,随着半导体技能 的出现和发展,我们又进入了芯片期间 ,芯片成为了算力的重要 载体。进入21世纪后 ,算力再次迎来了巨变,云盘算 技能 出现,算力云化之后 ,数据中心 成为了算力的重要 载体。人类的算力规模,开始新的飞跃 。
我们通常将如今 负责输出算力的芯片,分为通用芯片和专用芯片。专用芯片 ,重要 是指FPGA(可编程集成电路)和ASIC(专用集成电路)。像x86如许 的CPU处理 惩罚 器芯片,就是通用芯片。它们能完成的算力任务 是多样化的,机动 的 ,但是功耗更高 。
游戏 、数字货币 挖矿、AI、科学盘算 等各方面都必要 GPU,GPU成为了当下的关键题目 。下面我就围绕GPU以及对算力整个行业的思考 睁开 分享。
2023年两个变乱 的遐想 :
变乱 一:英伟达芯片怪兽一家独大!市值突破万亿美金
5月30日的时间 ,发生了一件庞大 的事变 ,5月30日美股买卖 业务 时段,英伟达市值一天内暴涨超2000亿,突破 1万亿美元大关,英伟达的市值宏大 于Intel 、AMD、高通 ,MTK的总和,乃至 是其他公司的10倍;再看英伟达公司的PS、PE指标,可以看出综合环境 黑白 常良好 的 。
那么 ,英伟达芯片怪兽的职位 是怎样 形成的?我在文章的末了 会分析。
变乱 二:美国卡脖子题目 再次升级!
上图所示的卡型至少有一款是AI范畴 必备的卡型,但是令人遗憾的是,由于美国卡脖子题目 再次升级 ,以上卡型全部被纳入禁售名单。
01
已往 篇
1.1
为什么必要 GPU?
CPU的定位是通用盘算 芯片,有强大 的调治 ,管理 ,和谐 本领 ,应用范围广,机动 性最高 ,善于逻辑控制,串行的运算 。
GPU的定位是并行盘算 芯片,重要 是将此中 非常复杂的数学和多少 盘算 抽出,变成 一个超高密度 、可以或许 并行盘算 的方式。最初专用于图形处理 惩罚 ,后渐渐 用于高密度通用盘算 ,包罗 AI盘算 。
1.2
GPU的劈头
GPU 的发展源于80年代,IBM是GPU理念的首创 者 ,但它并未对峙 。以是 真正意义上的第一款GPU是英伟达在1999年发布的Geforce 256,并正式提出一个响亮的名字“Graphics Processing Unit ”,这就是GPU的泉源 。以后 之后 ,GPU不停 高速发展。
图:这是第一款真正意义的GPU的照片
1.3
GPU的天下 就是“两位华人之间的战役 ”
各人 常说,GPU的天下 就是“两位华人之间的战役 ” 。英伟达的首创 人黄仁勋是美籍华人,黄仁勋的外甥侄女苏姿丰是AMD的CEO。也就是说 ,英伟达与AMD两大巨头企业的CEO是亲戚关系,把握 了全天下 最强大 的两个GPU。假如 再加上TSMC(台积电)也是华人,可以说华人主宰了尖端半导体行业的半壁江山 。
这GPU公司的竞合汗青 :
上图为GPU发展过程图 ,可以看出3dfx早期发展迅猛,2000年以不到一亿美金的估值被英伟达收购,ATI是AMD显卡的前身,2006年被AMD收购 ,以是 后期根本 为英伟达与AMD双雄争霸 。
留意 ,这个图中好像 少了谁,就是闻名 的Intel。着实 Intel在1998年发布了绝版独立显卡i740 ,在此之后的23年,就没有再发布过独立GPU,聚焦在做集成显卡 ,退出了GPU市场,如今 看来,这不是明智的战略选择。直到2022年 ,Intel终于看到AI发展的趋势,才发布了新的独立显卡系列,这就是ARC系列 。
GPU早期是为了用于图形渲染
GPU早期一样平常 为了3D渲染而计划 。从盘算 机图形学的角度 ,GPU将三维变乱 的点阵通过矩阵变革 投影到二维平面上,这个过程叫做光栅化,终极 在表现 器上结果 。GPU的本领 根本 上是顶点 处理 惩罚 、光栅化、像素处理 惩罚 等,这个过程包罗 大量的矩阵盘算 ,刚好利用 了GPU的并行性 。
厥后 ,GPU在计划 上走向了通用盘算 。
2003年,GPGPU(General Purpose computing on GPU)的概念被初次 提出来。GPU不再以图形的3D加快 为唯一目标 ,而是可以或许 用于恣意 并行的通用盘算 ,比方 科学盘算 、数据分析 、基因、云游戏、AIGC等 。
直到2009年英伟达初次 推出Tesla系列后,GPGPU期间 才真正到临 。
如今 国内有很多 做GPU的公司 ,大部分 都投入在GPGPU范畴 ,这些公司都放弃了图形渲染,直接以高密度的并行盘算 作为发展方向。
以英伟达的产物 来举例 ,有如下产物 系列
第一个用于游戏范畴 ,包罗 GeForce系列 、RTX系列,我们常说的4090就是属于游戏范畴 的系列;常说的x0y0编号就是GeForce系列 。
第二个用于数据中心 范畴 ,包罗 Tesla系列,常提到A100、H100就属于这一系列。英伟达有要求,不答应 游戏范畴 中的GeForce系列进入数据中心 。因此英伟达游戏系列的产物 在同样芯片、同样算力的环境 下,GeForce系列的代价 要比Tesla系列低3~5倍。正由于 代价 相差太大 ,如今 国内做大模子 推理 、StableDiffussion图形天生 等都以4090作为首选的缘故起因 ;
第三个是用于高端图形范畴 ,包罗 Quadro系列;这款在工业范畴 用得多 。
第四个是用于汽车范畴 。
GPU支持 与架构的不绝 优化
这是是英伟达的硬件架构变迁图。随着2007年英伟达推出 CUDA 1.0版本,使其旗下全部 GPU 芯片都顺应 CUDA 架构:
CUDA生态和代价 也是英伟达的最核心 竞争力 ,也是英伟达万亿市值的关键因素之一 。英伟达投入了一万以上的工程师在发展这个体系,根本 上把人工智能里的大部分 场景都做了深度优化。英伟达长期 投入CUDA生态建立 ,为开辟 者服务 ,创建 好了一系列的开源生态。
02
如今 篇
2.1
先辈 的微架构计划
如今 的GPU根本 利用 微架构计划 ,以最早的Fermi架构开始(2010年),当时 候一个GPU是由4个GPC(图形处理 惩罚 簇 Graphics Processing Clusters)、16个SM(流多处理 惩罚 器 ,Stream Multiprocessors )以及512个CUDA Core(向量运行单位 )构成 的,这是GPU的特性 。
着实 图形渲染也是微架构的(以 2018年 Turing 微架构为例)
RT Core(RT核心 )非常关键,实现了当代 GPU中的光线最闭幕 果 。渲染结果 中最紧张 的是光追 ,看这张光追低级结果 和光追高级结果 的对比图,差距非常显着 ,折射、反射 、光影都出现 出很大的差距。
着实 如今 的手机GPU根本 上都带有光追的结果 和本领 ,但是手机的光追结果 对比英伟达GeForce 40系列GPU的光追结果 差距很大 。一份最新的评测将英伟达 4070与高通GEN2举行 对比 ,各个指标综合得出差距为25倍,纵然 用最好的手机也不大概 体验到英伟达 4070渲染出来的结果 。这也是云游戏创建 的根本逻辑,让玩家在手机上也能体验到强大 的GPU渲染所带来的的画质结果 。
我们看看如今 最新一代GPU的环境 :
最新的 Ada Lovelace 架构(如Geforce RTX 4090)
看看最新的Ada架构 ,也就是4090这一代,这是完备 的管线图,密度相较于之前大大进步 ,仍旧 是微架构体系 。
我们放大看看GPC:
我们再放大看看SM,是不是和前面Turing架构的SM很像:
别的 ,和Ada架构GeForce系列平行的是Hopper架构的Tesla系列 ,也就是传说中的H100/H800,这两个架构的管线大抵 是雷同 的,特别 阐明 的是Tensor Core中的内容是完全一样的 ,以是 在Ada架构的4090上也可以很好地发挥Hopper架构AI的特性。但Ada架构与Hopper架构最关键的区别,Ada不知道多卡高速互联,也就是NVLink/NVSwitch这套技能 。