AMD 芯片架构设计分析

大家好，欢迎来到IT知识分享网。

一、CPU架构

Zeppelin

Naples（EPYC1）

4 die SoC架构

32个zen架构core
8个DDR4通道
x128 PCIe4
4*213 mm²
GF14nm

单die架构：

CCX
CPU complex，每个CCX包含4个CPU core，CCX间可以通过Infinity Fabric通信（SCF+SDF）
CCX间任务的分配由cache-corherent non-uniform memory access（ccNUMA-aware）实现，确保线程不会从一个CCX迁移到另一个是很重要的，由于CCX间数据通信需要额外的延迟，线程的搬移会引起不必要的性能损耗。

双die架构：

GMI接口
die-to-die的IFOP接口，每个时钟cycle传输16B read + 16B write。

四die架构

每个die有四组GMI接口，但只有和其他die最近的三组接口被使用

如图是EPYC系列die互连某层的布局布线图，视图上方和下方的粉色布线是die的UMC出来的接口，视图中间的粉色和蓝色布线是双向的GMI链路，左下和右上die的连接被隐藏了，左上芯片和右上芯片摆放位置相同，下面的芯片摆放旋转180度。
die间延迟如图所示
die0-3和die4-7分别为两路CPU。
DDR访问延迟

Rome（EPYC2）

8*DDR channel
x128 PCIe
发布时间：2019年
CCD (16~64 cores): TSMC 7nm
IO die: GF 14nm (server) ; GF 12nm (client)

CCD

CPU die即为core complex die（CCD），每个CCD有两个CCX，一个SMU 和一个GMI2接口模块。

SMU
system management unit，系统管理单元，读取温度、电压、电流数据，并调整CPU主频和电压，限制IO die的fast local closed loop和global loop。CCD和IO die间SMU的通信通过单lane的IFOP接口。
GMI2
global memory interconnect version 2，GMI2在GMI的基础上扩展了CCD和IO die连接的数据接口，即32 lane的双向IFOP接口；同时传输带宽增加到每个时钟cycle传输32B read + 16B write。

IO die

8个DDR通道（所有CCD访问ddr的延迟均一样）

蓝色柱状图是7nm+12nm小芯片架构的成本，红色柱状图是7nm大芯片架构的成本，64core的大芯片架构由于芯片面积超过光刻掩模版极限（lithographic reticle limit），未有数据。
EPYC架构只需要两次tape-out，分别是CCD和IOD，根据核数需要选择构建CCD的数量，因此成本大大降低

Milan（EPYC3）

Genoa（EPYC4）

12*DDR5 channel
4/8/12* CCD (zen4 core) + 1 * IOD
超过4CCD使用GMI3-Narrow，少于4则使用GMI-Wide
IOD复用
8x16 + 2x4 = 136 Lane PCIe5

二、CPU Core架构

Zen

Zen系列是每一代AMD处理器芯片的core架构，包括取指、分支预测、cache架构等

Zen架构使用chiplet技术将多核系统划分为多个die互联封装的架构，单核整体还是一个SoC，包含4个CPU core（core complex，即CCX），南桥模块组（IO）和北桥模块组（DDR）。

发布时间：2017年3月2日
制成工艺：GF 14 nm
参考链接：wikichip:Zen

Zen+

Zen2

CCD结构

Zen3

参考链接：AMD官网 Zen3架构

CCD结构

三、互联方式

3.1 Die间互联

3.2 Die内互联

ONION (Fusion Compute Link)

GPU和CPU互联的一致性总线，用于cache snooping

GARLIC (Radeon Memory Bus)

GPU和Memory controller连接的非一致性总线，

3.3 芯片互连架构Infinity Fabric

业务数据六模块 SDF

如图所示是一个点对点结构和中心岛结果混合的单die架构：

两个CCX通过CCM (Cache-Coherent Master)连接到SDF平台，CCM提供core数据一致性访问维护机制；
IO Hub模块通过IOMS (I/O Master/Slave)接口和SDF相连。
DDR4通过UMC (Unified Memory Controller)与SDF相连，时钟频率和DRAM memclk相同
serdes接口通过CAKE (coherent AMD socket extender)与SDF连接，CAKE负责串行编码和解码，每个cycle发送128bit串行数据，时钟频率和DRAM memclk相同，serdes接口包括IFOP和IFIS。
在SDF模块中，只可以通过CCM和IOMS访问DDR

控制数据流模块 SCF

SCF通过单独的IFIS接口和外部的设备连接

Die间总线接口 IFOP

32bit单端data信号
差分时钟
能耗2 pJ/b
串行全双工

非对称的RX/TX架构

上图来源于：
S. Naffziger, K. Lepak, M. Paraschou and M. Subramony, “2.2 AMD Chiplet Architecture for High-Performance Server and Desktop Products,” 2020 IEEE International Solid-State Circuits Conference – (ISSCC), San Francisco, CA, USA, 2020, pp. 44-45, doi: 10.1109/ISSCC19947.2020.9063103.

芯片间总线接口 IFIS

16位差分data，每个CAKE时钟周期进行8次传输
无时钟信号
能效11pJ/b

3.4 特征小芯片

3D V-cache

四、GPU架构

Zen-based APU

GF 14nm
基于Zen架构的加速器处理单元是一个完整die，包括一个CCX、一个Vega计算核心和其他部件通过infinity Fabric互联组成的系统，

MI200

包含两个die，每个die包含了8个ACE（asynchronous compute engine），并通过Infinity Fabric总线连接

MI300

采用CPU die和GPU die集成的计算加速芯片，共享同一个内存地址空间，软件不必担心内存管理，编程更加容易。

参考文献

“Amd cdna 2 architecture,” 2021. [Online]. Available: https://www.amd.com/system/files/documents/amd-cdna2-white-paper.pdf
AMD官网：EPYC4
AMD官网：AMD近几年发表的学术论文

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/125888.html