大模子 AI席卷环球 ,推理创新的APP、场景落地越来越多。当练习 到达 肯定 阶段 ,推理肯定 会形成一个发作 。推理的产物 要起来,肯定 要把推理的本钱 降到本日 1/ 10 乃至 1/100。此时该怎样 选好 、用好 GPU ,进而影响推理本钱 ?
近来 , LiveVideoStack荣幸地约请 到PPIO的王闻宇老师担当 采访。本文将从芯片怪兽英伟达公司把持 式增长和美国“卡脖子”2个热门 题目 出发。围绕已往 、如今 、将来 三个时间线为各人 梳理GPU的劈头 及其软硬件技能 的更迭;同时 ,深度分析 GPU主流产物 的参数和技能 发展近况 ,并连合 当前GPU的微架构计划 ,给出算力工程优化的几个思考 和有效 办理 方案 。
媒介 :算力与GPU
算力 ,即盘算 本领 (Computing Power)。更具体 来说,算力是通过对信息数据举行 处理 惩罚 ,实现目标 结果 输出的盘算 本领 。
最早的算力引擎 。是人类的大脑 ,厥后 演变成 草绳、石头 、算筹(一种用于盘算 的小棍子)、算盘。到了20世纪40年代,天下 上第一台数字式电子盘算 机ENIAC诞生,人类算力正式进入了数字电子期间 。再厥后 ,随着半导体技能 的出现和发展,我们又进入了芯片期间 ,芯片成为了算力的重要 载体 。进入21世纪后 ,算力再次迎来了巨变,云盘算 技能 出现,算力云化之后,数据中心 成为了算力的重要 载体。人类的算力规模 ,开始新的飞跃。
我们通常将如今 负责输出算力的芯片,分为通用芯片和专用芯片 。专用芯片,重要 是指FPGA(可编程集成电路)和ASIC(专用集成电路)。像x86如许 的CPU处理 惩罚 器芯片 ,就是通用芯片。它们能完成的算力任务 是多样化的,机动 的,但是功耗更高 。
游戏、数字货币 挖矿 、AI、科学盘算 等各方面都必要 GPU ,GPU成为了当下的关键题目 。下面我就围绕GPU以及对算力整个行业的思考 睁开 分享。
2023年两个变乱 的遐想 :
变乱 一:英伟达芯片怪兽一家独大!市值突破万亿美金
5月30日的时间 ,发生了一件庞大 的事变 ,5月30日美股买卖 业务 时段 ,英伟达市值一天内暴涨超2000亿,突破 1万亿美元大关,英伟达的市值宏大 于Intel、AMD 、高通 ,MTK的总和,乃至 是其他公司的10倍;再看英伟达公司的PS、PE指标,可以看出综合环境 黑白 常良好 的。
那么,英伟达芯片怪兽的职位 是怎样 形成的?我在文章的末了 会分析 。
变乱 二:美国卡脖子题目 再次升级!
上图所示的卡型至少有一款是AI范畴 必备的卡型 ,但是令人遗憾的是,由于美国卡脖子题目 再次升级,以上卡型全部被纳入禁售名单。
01
已往 篇
1.1
为什么必要 GPU?
CPU的定位是通用盘算 芯片 ,有强大 的调治 ,管理,和谐 本领 ,应用范围广,机动 性最高,善于逻辑控制 ,串行的运算。
GPU的定位是并行盘算 芯片,重要 是将此中 非常复杂的数学和多少 盘算 抽出,变成 一个超高密度、可以或许 并行盘算 的方式 。最初专用于图形处理 惩罚 ,后渐渐 用于高密度通用盘算 ,包罗 AI盘算 。
1.2
GPU的劈头
GPU 的发展源于80年代,IBM是GPU理念的首创 者,但它并未对峙 。以是 真正意义上的第一款GPU是英伟达在1999年发布的Geforce 256 ,并正式提出一个响亮的名字“Graphics Processing Unit ”,这就是GPU的泉源 。以后 之后,GPU不停 高速发展。
图:这是第一款真正意义的GPU的照片
1.3
GPU的天下 就是“两位华人之间的战役 ”
各人 常说 ,GPU的天下 就是“两位华人之间的战役 ”。英伟达的首创 人黄仁勋是美籍华人,黄仁勋的外甥侄女苏姿丰是AMD的CEO 。也就是说,英伟达与AMD两大巨头企业的CEO是亲戚关系 ,把握 了全天下 最强大 的两个GPU。假如 再加上TSMC(台积电)也是华人,可以说华人主宰了尖端半导体行业的半壁江山 。
这GPU公司的竞合汗青 :
上图为GPU发展过程图,可以看出3dfx早期发展迅猛 ,2000年以不到一亿美金的估值被英伟达收购,ATI是AMD显卡的前身,2006年被AMD收购 ,以是 后期根本 为英伟达与AMD双雄争霸 。
留意 ,这个图中好像 少了谁,就是闻名 的Intel。着实 Intel在1998年发布了绝版独立显卡i740,在此之后的23年 ,就没有再发布过独立GPU,聚焦在做集成显卡,退出了GPU市场 ,如今 看来,这不是明智的战略选择。直到2022年,Intel终于看到AI发展的趋势 ,才发布了新的独立显卡系列,这就是ARC系列。
GPU早期是为了用于图形渲染
GPU早期一样平常 为了3D渲染而计划 。从盘算 机图形学的角度,GPU将三维变乱 的点阵通过矩阵变革 投影到二维平面上 ,这个过程叫做光栅化,终极 在表现 器上结果 。GPU的本领 根本 上是顶点 处理 惩罚 、光栅化、像素处理 惩罚 等,这个过程包罗 大量的矩阵盘算 ,刚好利用 了GPU的并行性。
厥后 ,GPU在计划 上走向了通用盘算 。
2003年,GPGPU(General Purpose computing on GPU)的概念被初次 提出来。GPU不再以图形的3D加快 为唯一目标 ,而是可以或许 用于恣意 并行的通用盘算 ,比方 科学盘算 、数据分析 、基因、云游戏、AIGC等。
直到2009年英伟达初次 推出Tesla系列后,GPGPU期间 才真正到临 。
如今 国内有很多 做GPU的公司,大部分 都投入在GPGPU范畴 ,这些公司都放弃了图形渲染,直接以高密度的并行盘算 作为发展方向。
以英伟达的产物 来举例,有如下产物 系列
第一个用于游戏范畴 ,包罗 GeForce系列、RTX系列,我们常说的4090就是属于游戏范畴 的系列;常说的x0y0编号就是GeForce系列。
第二个用于数据中心 范畴 ,包罗 Tesla系列 ,常提到A100 、H100就属于这一系列 。英伟达有要求,不答应 游戏范畴 中的GeForce系列进入数据中心 。因此英伟达游戏系列的产物 在同样芯片、同样算力的环境 下,GeForce系列的代价 要比Tesla系列低3~5倍。正由于 代价 相差太大 ,如今 国内做大模子 推理、StableDiffussion图形天生 等都以4090作为首选的缘故起因 ;
第三个是用于高端图形范畴 ,包罗 Quadro系列;这款在工业范畴 用得多 。
第四个是用于汽车范畴 。
GPU支持 与架构的不绝 优化
这是是英伟达的硬件架构变迁图。随着2007年英伟达推出 CUDA 1.0版本,使其旗下全部 GPU 芯片都顺应 CUDA 架构:
CUDA生态和代价 也是英伟达的最核心 竞争力,也是英伟达万亿市值的关键因素之一。英伟达投入了一万以上的工程师在发展这个体系 ,根本 上把人工智能里的大部分 场景都做了深度优化 。英伟达长期 投入CUDA生态建立 ,为开辟 者服务,创建 好了一系列的开源生态。
02
如今 篇
2.1
先辈 的微架构计划
如今 的GPU根本 利用 微架构计划 ,以最早的Fermi架构开始(2010年),当时 候一个GPU是由4个GPC(图形处理 惩罚 簇 Graphics Processing Clusters) 、16个SM(流多处理 惩罚 器,Stream Multiprocessors )以及512个CUDA Core(向量运行单位 )构成 的 ,这是GPU的特性。
着实 图形渲染也是微架构的(以 2018年 Turing 微架构为例)
RT Core(RT核心 )非常关键,实现了当代 GPU中的光线最闭幕 果 。渲染结果 中最紧张 的是光追,看这张光追低级结果 和光追高级结果 的对比图 ,差距非常显着 ,折射、反射、光影都出现 出很大的差距。
着实 如今 的手机GPU根本 上都带有光追的结果 和本领 ,但是手机的光追结果 对比英伟达GeForce 40系列GPU的光追结果 差距很大。一份最新的评测将英伟达 4070与高通GEN2举行 对比 ,各个指标综合得出差距为25倍,纵然 用最好的手机也不大概 体验到英伟达 4070渲染出来的结果 。这也是云游戏创建 的根本逻辑,让玩家在手机上也能体验到强大 的GPU渲染所带来的的画质结果 。
我们看看如今 最新一代GPU的环境 :
最新的 Ada Lovelace 架构(如Geforce RTX 4090)
看看最新的Ada架构,也就是4090这一代 ,这是完备 的管线图,密度相较于之前大大进步 ,仍旧 是微架构体系。
我们放大看看GPC:
我们再放大看看SM ,是不是和前面Turing架构的SM很像:
别的 ,和Ada架构GeForce系列平行的是Hopper架构的Tesla系列,也就是传说中的H100/H800 ,这两个架构的管线大抵 是雷同 的,特别 阐明 的是Tensor Core中的内容是完全一样的,以是 在Ada架构的4090上也可以很好地发挥Hopper架构AI的特性 。但Ada架构与Hopper架构最关键的区别 ,Ada不知道多卡高速互联,也就是NVLink/NVSwitch这套技能 。