HBM(High Bandwidth Memory, 带宽测试存储芯片)是一种基于3D层叠加工工艺的内存 处理芯片。通过引进TSV(Through Silicon Via,硅通孔)和3D处理芯片层叠等先进封装技 术,双层DRAM处理芯片得到彼此之间产生联接并竖直层叠在逻辑芯片上边,再去封装形式 阶段根据2.5D封装技术(CoWoS-S加工工艺)将HBM与GPU直接由硅中介公司层(Si Interposer)联接,为此提升单独DRAM芯片网络带宽短板,从而能完成大空间、高 位宽、节能型的DDR组成阵型。
伴随着预训练技术的发展,AI网络参数量急速扩张,GPU内存空间变成限制因素。生 成式AI的练习对GPU大规模并行处理的速率规定在不断的提高,但计算步骤自身 必须算率、存力、运输能力三者与此同时配对。依据《AI and Memory Wall》,在GPT-2以前 模型时期,GPU运行内存还能满足AI大模型的需要,但是随着Transformer模型规模性 发展的新趋势与应用,实体模型尺寸每四年便会平均增速410倍。GPT-3等各大实体模型参数值提高早已 超过GPU内存的提高,传统式的内存设计趋向已不适应当前的需要,芯片内部、 处理芯片之间或 AI 网络加速器之间的通信变成了AI练习的瓶颈,AI练习不可避免碰见了 “运行内存墙”难题,即运行内存容量或传输带宽比较有限而非常严重限定CPU特性充分发挥。
与DDR对比,HBM具有更加好的带宽和较低的能源消耗,更适合用于性能卓越AI芯片存放 计划方案。应对“运行内存墙”考验,HBM便是为提升传输速度和降低能耗应运而生的关键 技术方案。依据sk海力士官方网站,企业的HBM2和HBM2E各自能达到256GB/s和 358GB/s的网络带宽,是GDDR 6的4.5/6.5倍;但在功能损耗层面,HBM2 4H的功耗比GDDR5 减少了50%。因而,HBM可以说是目前更符合AI处理芯片市场需求的存储方案,在提升传送 速度与此同时明显降低了运作过程中产生的功能损耗成本费。
自2014年SKsk海力士重磅推出HBM商品,HBM技术性历经了五次迭代更新。2014年,SK海 力士与AMD协力成功将硅通孔(TSV)技术应用于DRAM,上线了全球首个HBM产 品;2018年,第二代HBM商品—HBM2面世,通过运用伪安全通道方式和防高温保护等形式,HBM2在数据传输速率层面较HBM1具有更加好的能耗等级;2020年,第三代商品HBM2E 公布,与HBM2对比,HBM2E具备技术性更成熟、应用领域更加全面、速度相当快、容积 更高等优点;2021年,第四代商品HBM3增加了个性化定制的ECC校检(On Die-Error Correcting Code)作用,能够正常的使用预分配的奇偶校验位来测试和纠正获取数据中自己的错 误,在进一步提升带宽和传输速率的前提下提升了稳定性;2023年,第五代商品 HBM3E终于如愿以偿产出率,在HBM3的基础上再次增强了整体性能、导热性能与后端适配 性。从HBM1到HBM3E,层叠相对高度增强了3倍(4层至12层),网络带宽增加了近10倍 (128GB/s到1024GB/s),I/O效率提高了8倍(1Gbps到8Gbps)。
HBM4预计2026年面世,将采取更宽的2048位运行内存插口及其下一代混和引线键合加工工艺。 从HBM1到HBM3E,HBM在大多数迭代中都保存了同样的1024位(每一个局部变量)插口, 即具有以相对性适中数字时钟速率运转的超高插口。但是,伴随着运行内存传输速度规定持续 提升,这一速率将不能够满足将来AI环境下的传送数据规定。因此,下一代HBM4必须 对带宽测试运行内存技术实现更实质上的更改,将采取更宽的2048位运行内存插口,基础理论上可以 以便传输速率再度翻番,比如,现阶段英伟达显卡的批量生产旗舰级AI GPU H100搭配六颗 HBM3做到6144-bit位宽,假如运行内存插口翻番到2048位,英伟达显卡本质上能将处理芯片数 量递减到三个,并得到同样性能。值得一提的是,依据sk海力士在投资者座谈会表露,将 把下一代后处理工艺技术性“混和引线商品。与现有的“非导电膜”加工工艺相 比,该方法提升了散热效率并降低了走线长短,以此来实现更高I/O相对密度。
世界各国头顶部芯片供应商全部采用HBM做为流行高档AI处理芯片存下来显卡内存计划方案。归功于AI处理芯片 针对高算力、高存放、节能型的重要需求,HBM受到慢慢的变多生产商采取作为高端AI 芯片显卡内存计划方案。比如,目前市面上最主流的NVIDIA的A100和AMD的MI250X就分了 别搭载的是80/128GB的HBM2E,而特性更出色的H100则搭载的是80GB HBM3;多 数CSPs自研的加快处理芯片不管架构设计怎样修改,绝大多数也都以HBM2/2E做为流行显卡内存 规格型号。
英伟达显卡是高端AI GPU的重要服务提供者,A100/H100独立显卡已是绝大多数AI大佬生产商压货目 标。在这次的AI风潮下,从始至终坚持下注AI将来的英伟达显卡变成了获益数最多的企业之 一,集团旗下售卖的A100芯片和上线处理芯片是当前练习大模型效率最高的处理芯片,几 乎变成了全部AI企业的“必需品”,OpenAI采用了约1千颗英伟达显卡GPU来练习GPT3.5实体模型,而Meta去年公布修建全世界速度最快的AI超算中心“RSC”包括16000颗A100 GPU。 H100去年9月20日重磅推出,相对于A100,H100单卡在逻辑推理速度上提高3.5倍, 在练习速度上提高2.3倍;若使用服务器集群计算的形式,练习速率更是能提升到9 倍,本来一个星期的任务量,现在只需要20小时。虽然H100的价格约是A100的 1.5~2倍以上,但练习大模型效率却提高了200%。如果搭配英伟达显卡最新快速连 接系统设备,每美金的GPU特性有很大的可能性高出4-5倍,也受到了顾客青睐。
2023年11月,英伟达显卡发布现阶段世界最强的AI处理芯片H200,配备6颗HBM3E,运行内存为 本次更新的重要领域,特性较H100提高了60%到90%。依据英伟达官网,H200做为 H100的升级款,依然采用Hopper架构设计(1GPU 6HBM)和tsmc4纳米芯片,GPU 处理芯片并没有更新,核心数、工作频率没变化,关键升级是来自于初次配备HBM 3E显卡内存, 在H100(80GB HBM 3,3.35TB/s)的前提下将显卡内存升级到了141GB,立即提高76%, 运作速度能达到4.8TB/s。在HBM 3E支撑下,H200让Llama-70B逻辑推理特性基本上翻番, 运作GPT3-175B还可以提高60%。与此同时,英伟达显卡还强调H200与H100彻底适配,寓意 着将H200导入到已经有系统内不用做一切调节,原来应用H100练习/推理模型的企 业,能够无缝拼接更换为最新H200。
AIGC时代背景下,算率贮备正在成为云厂商核心竞争优势。伴随着人工智能技术迅速演变 创变各行各业,支撑点优化服务发展趋势,将来根据AIGC推动的云计算技术要求将是IaaS领 域提高的不断推动力,各种云计算厂商均切实合理布局人工智能技术以把握未来发展趋势。 现阶段,亚马逊平台AWS已经形成了AI服务平台、AI服务项目、AI基础设施建设多方位合理布局,并和英伟 达协作,专注于大中型深度学习模型练习和生成式AI应用软件搭建;微软公司借助ChatGPT, 发布Microsorft 365 Copilot、NewBing、Security Copilot一系列运用,快速占领大语 言实体模型应用商店;Google则研发了LaMDA大语言模型,创新推出AI商品Bard,在 此环境下,大数据处理对算率贮备的需求将稳步增长。依据Counterpoint,2023年全 球云计算服务商的资本性支出预计同比增加7.8%,总资本性支出中大约是35%用以IT基 础设备(包含服务器和计算机设备),相比2022年提高2pct;到2023年,微软公司(23%) 和亚马逊(22%)将占世界云厂商总资本性支出的近半市场份额,国外集成电路工艺云厂商(微 软、亚马逊平台、谷歌搜索、META、甲骨文字、IBM)总计资本性支出将占世界总资本性支出的91.9%。
从AI有关基础设施建设资金投入来说,依据Counterpoint,微软公司是有关资金投入比例最高企业, 其13.3%的资本性支出将主要用于比如AI网络服务器等人工智能技术基础建设。其次百度搜索,相 关开支约占总资本性支出的9.8%。 从AI网络服务器采购数量来说,依据TrendForce,2022年AI网络服务器购置主要是以北美地区四大云 端商家Google、AWS、Meta、Microsoft为主导,总计占66.2%;而我国近些年来国 产化加快,AI基本建设的浪潮随着提温,字节跳动的采购数量最大,年购置占比超过6.2%, 其他企业包括腾讯(2.3%)、阿里(1.5%)与百度(1.5%)。 整体上来说,虽然中国企业在人工智能技术上的投入占有率更高,但是由于整体资本性支出 比较低,AI网络服务器采购数量和算率贮备均远低于国外同行业公司。
AIGC大模型的练习和逻辑推理需要大量大数据处理(HPC)算率适用,全世界AI网络服务器 及AI处理芯片要求保持提高。依据TrendForce,2023年全世界AI芯片销售量预计将会增加 46%,AI网络服务器(包括配备GPU、FPGA、ASIC等)销售量能够达到120万部,同比增加 38.4%,占整体网络服务器销售量近9%;到2026年,预计全世界AI网络服务器销售量可以达到237 万部,2023-2026年CAGR达29%;中国市场来看,依据IDC,2022年在我国内地AI服 务端销售量达28.4万部,预计在2027年做到65万部,2022-2027年CAGR为17.9%。
AI网络服务器GPU的需求是HBM最重要的增量空间。一般网络服务器以CPU做为算力的给予 者,使用的是串行通信架构设计,善于逻辑性测算、字符型计算等层面。毕竟在开展判断推理时 需要大量支系自动跳转解决,CPU的构造通常相当复杂,算力的提升依赖于堆积更 多的是核心数来达到。而AI模型推理的算力需求已经远超CPU可提供的计算水平, 因而AI网络服务器广泛使用CPU GPU的异构体构造,由CPU传出调度指令,运用GPU可 并进行线程同步吞吐量数据信息的优点,提高其在整理密集式数据处理分析,如图形处理、设备 学习培训等方面的主要表现。 从成本分割来说,依据SemiAnalysis,构建一套AI网络服务器(如DGX H100)的成本费用大约为27万美金,比构建一套一般网络服务器(如Intel Sapphire Rapids)高出近25倍, CPU、存放、网口等多环节商品的价值均慢慢地提高。在其中,GPU是AI网络服务器成本最 强的一部分,达到72.5%,都是比照传统式云服务器纯增量空间。因为AI网络服务器通常要 组合8张GPU,而GPU的显卡内存计划方案大多以HBM为主导,因此AI GPU将成为HBM主 想要的需求来源。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
曝iPhone 16 Pro Max超窄下巴刷新纪录:很考验用户的贴膜能力
对话宇树创始人兼CEO王兴兴:通用机器人的iPhone时刻还需要3-4年
与中坚力量共成长,2024建信信托艺术大奖评委会特别奖获奖艺术家凌海鹏
无需外部冷却亦可 8400MT/s,宏碁掠夺者推出影锋 DDR5 内存条
8599元起 原子侠G7 Ti/G7 Ti SE迷你台式机预售:RTX4070独显