主页 > 国内 > 百核时代、GB缓存时代、大模型时代!或许,这是AMD自己的时代

百核时代、GB缓存时代、大模型时代!或许,这是AMD自己的时代

2023-06-16 来源:网络阅读:1531

北京时间2023年6月13日,AMD在旧金山举办发布会,面向数据中心领域发布了多款CPU、APU、GPU及DPU新品。

image.png

绽放在数据中心里的“百核”

在CPU部分,AMD首先发布了第四代EPYC处理器家族新成员97x4系列,开发代号Bergamo,面向云原生市场。

image.png

image.png

新处理器首发包含3个型号,分别是128核、支持SMT功能(AMD的超线程技术)的9754,128核不支持SMT功能的9754S以及112核支持SMT的9734。三款处理器均提供256MB L3缓存,支持12通道DDR5-4800 ECC内存、128通道PCI-E 5.0和CXL 1.1技术。

两款128核处理器默认TDP 360W,包含820亿晶体管,CCD采用台积电5nm工艺,IOD采用台积电6nm工艺。

换而言之,AMD终于将数据中心CPU推向百核时代!

另外,AMD技术人员表示,不支持SMT技术的9754S在NGINX等连接代理类应用中拥有更高的性能表现;而9754S价格也会比支持SMT的9754略低,由此便能在特定任务负载下创造更好的性价比。

image.png

Zen 4与Zen 4c核心规格对比

97x4系列沿用了之前Genoa的核心设计,但缩减了L3缓存容量(从之前的4M缩减至2M,因此97x4系列处理器的L3总容量也从96x4的384MB缩减至256MB)和相关电源控制电路,单核心面积也从之前的3.84平方毫米缩减35%,至2.48平方毫米;新核心代号Zen 4c。

image.png

由此,代号Bergamo的97x4系列处理器结构也就演变为8CCD,每CCD包含16个物理核心。而之前的96x4处理器则为4CCD、每CCD包含3个CCX、每CCX包含8个物理核心。

由于能够在360W TDP基础上提供更高的核心数量及核心密度,因此97x4系列处理器更适合云原生以及互联网云服务提供商。同时这也意味着97x4系列处理器具备更高的能效比。

image.png

在发布会现场,AMD CEO苏姿丰女士也邀请了AWS等多家合作伙伴上台分享新处理器的应用体验。AWS代表表示:搭载97x4系列处理器的EC2新品已经于13日发布预览;新主机定名为M7a,相对于采用Genoa处理器的M6a,新主机性能提升50%!

处理器缓存进入GB时代

除了代号为Bergamo的97x4系列处理器之外,AMD还发布了代号为Genoa-X的9x84X系列处理器新品。

image.png

Genoa-X与Genoa采用完全相同的核心及总体设计,但是加入了3D-V Cache技术,并由此将处理器的三级缓存容量从之前的384MB直接提升至惊人的1.1GB。

image.png

9x84X系列处理器所拥有的海量三级缓存能够帮助其在“技术计算”负载中获得更好的性能。在AMD的定义中,技术计算主要包含EDA(计算机辅助设计)、CFD(流体力学计算)、FEA(有限元分析)、SA(结构分析)等工作负载,是高端制造业与科研经常用到的模拟仿真类应用。

AMD使用的3D-V Cache技术是一种半导体3D堆叠技术,包含96MB三级缓存的晶片直接堆叠在CCX的Core部分之上,并通过垂直的物理连接层TSV与下层晶片的三级缓存控制器相连,获得通讯带宽和供电,TSV层可承载2TB/s的通讯带宽。

虽然只使用了7nm工艺,上层的三级缓存晶片由于只包含缓存结构而没有相关的控制器和其他逻辑电路,因此具备更高密度(5nm工艺的Zen 4 CCD只能提供64MB三级缓存,而7nm工艺的三级缓存晶片则能提供96M;差距就在于上层的三级缓存晶片中不包含控制器等部分)。

值得注意的是,在技术计算中,搭载9x84X系列处理器的计算集群往往能实现超线性的性能增长。

image.png

如图所示,在开源流体力学软件OpenFOAM中,包含8台双路9684X处理器计算节点的集群能够实现13.9倍的性能提升;而在理想的线性扩展中,8台计算节点也只能提供8倍的性能。

EPYC部分总结:用Chiplet和先进3D封装,实现片上雕花

image.png

image.png

Bergamo和Genoa-X已经发布,加上即将在今年晚些时候发布的面向电信及边缘市场的Siena,AMD即将在数据中心/企业CPU市场形成四足鼎立的产品格局。并且,在通用计算、云原生、技术计算、边缘计算等各类主要负载类型中,AMD也都有经过针对性架构优化的产品可供选择,继而在每一类负载中为用户提供更高的性能和更高的能效。

这样的产品格局在以往的任何代际的CPU市场(包括企业级和消费级)中都不曾出现。因为在传统的芯片设计框架中,这样的策略会导致成本完全失控,厂商和用户均无法负担。而AMD能够做到这一点的原因则在于充分发挥了Chiplet与先进3D封装技术的优势。

Chiplet与先进3D封装技术的综合应用能够将以往集中式的芯片开发模式打散为模块式的晶片组合;由此,AMD便能通过单个模块的迭代来打造新品,按时为用户交付各种能力,快速响应市场需求变化。

在芯片设计越来越复杂、工艺越来越精密的当下,这种策略与技术组合能够赋予AMD“小不快跑、快速迭代”能力,这种灵活性正是芯片企业在面对复杂流程和开发时所欠缺的;是处理器厂商中的“稀缺能力”。而具备这种能力的AMD显然能在日后更加激烈的竞争中为用户交付更多样化的产品并获得竞争优势。

数据中心也有APU了!

本次发布除了CPU产品,还包括了采用CDNA 3架构、面向AI市场的两款加速器新品,其一是融合了CPU与GPU的Instinct MI300A,其二则是纯GPU产品Instinct MI300X。

image.png

AMD将Instinct MI300A定义为面向AI与HPC应用的APU产品。总体而言,MI300A是一款包含了128GB HBM3(CPU与GPU共用的系统级RAM)、CDNA 3架构GPU、Zen4架构CPU的融合型产品,能够实现AI与HPC的计算与管理一体化,继而大幅降低AI推理等系统的成本、简化结构,使其能够应用在终端或边缘场景中。

Instinct MI300A目前已经处于Sampling阶段,各大合作伙伴都已收到样品并展开测试和开发工作。

400亿参数大模型,一卡搞定

image.png

Instinct MI300X则是一款纯粹的GPU产品,拥有192GB HBM3显存,带宽达到5.2TB/s;而使用Infinity Fabric总线互联的8组CDNA 3核心簇则能获得896GB/s的交换容量。

image.png

完整的Instinct MI300X加速卡使用符合OCP标准的OAM形态,通过PCI-E Switch实现GPU间互联;单块交换板可安装8块加速卡,实现总计1.5TB容量的HBM显存。

AMD在发布现场表示,在Falcon 40B大模型测试中,MI300X能够支持400亿参数。而这也意味着只需几块MI300X就能满足动辄千亿参数量的各类大模型训练需求;这显然能够极大降低企业投身大模型产业的硬件门槛。

Instinct MI300X将于2023年第三季度进行批量Sampling阶段。

Instinct部分总结:Chiplet再下一城

本质来讲,Instinct MI300A和Instinct MI300X同样是Chiplet思路下CDNA 3核心及Zen 4核心的堆叠、组合产物。通过Chiplet技术所提供的空前灵活性和Infinity Fabric总线所提供的超高带宽,AMD可以将两种类型的核心及HBM3内存任意组合,创造出针对不同业务场景的产品,让AI的训练、推理及HPC客户获得更丰富的选择。

当然,目前Instinct MI300A和Instinct MI300X仍旧没有正式发货,其产品思路也有待市场和用户的进一步验证。但Chiplet技术的价值就在于,一旦这一产品形态获得认可,AMD便可快速开发出更多组合以扩展市场。

AMD发布面向P4架构优化的DPU新品

P4是一种专为超大规模数据中心开发的网络编程语言,能够为数据中心网络提供流量编排和调度能力,从而缓解不同负载下的局部网络拥塞以及由此产生的网络丢包问题,用以实现网络效率及可靠性的整体提升。同时,符合P4标准的智能网卡也能大量卸载CPU的网络负载,实现各类IO和加密功能,从而为业务释放更多算力。

image.png

而在本次发布会上,AMD也推出了专门面向P4网络优化的DPU产品,可用在智能网卡和P4交换机上。AMD表示,P4 DPU产品是一款完整可编程的网络控制器产品,专为P4语言而优化。目前该产品已经被AMD旗下Pensando公司的智能网卡产品所采用,并应用在微软Azure云数据中心之中。

此外,HPE旗下专注网络市场的Aruba品牌也推出了搭载两颗AMD P4 DPU的智能交换机产品,可将智能流量编排和CPU IO负载卸载至交换机端,从而在实现可编程网络的同时降低硬件成本。

2023,AMD诚意满满;Chiplet开花,新品硕果累累

正如前文所述,AMD已经用一场干货满满的发布会呈现了Chiplet和先进封装技术所能带来的各种能力组合。更多样化的业务负载、更高的性能、更好的能效表现……这都是小步快跑、快速迭代的AMD能够为市场提供的全新价值。

在这样一个充满变数的时代,只有快速跟进需求、适应变化的企业才能获得发展与成功;企业客户如此,CPU厂商亦是如此。那么,面对能力多样且能够按时交付产品的AMD,又有谁能不爱呢?