下面这张图把一块AI计算卡(Compute Tray)从下往上"拆开"展示。从最底下的PCB主板开始,依次往上是BGA焊球、IC载板(或玻璃基板)、C4微凸点、硅中介层、GPU+HBM、CPO光引擎、光纤、液冷盖板。每一层的标签都在左侧整齐排列,用引线指向对应组件。
把封装从侧面切开看,能更清楚地看到层与层之间是怎么"堆"起来的。 注意厚度比例:PCB最厚(约2-3mm)、载板次之(约1mm)、芯片最薄(<1mm)。 BGA焊球和C4微凸点的尺寸差异也很明显——前者约500μm,后者只有几十μm。
把封装从正上方往下看,能看到一块约110×110mm的载板上"住"了哪些组件,怎么排布的。 GPU在中央,HBM内存堆栈紧贴GPU两侧(信号路径最短),CPO光引擎围绕GPU四周布置(光信号只能短距离传输到光纤接出口)。
GPU放在载板正中央,到所有HBM和CPO的距离最短,能最大化数据吞吐效率。
HBM和GPU的距离决定内存带宽——距离越近,链路损耗越小、能效越高。这就是HBM要"贴脸"放的原因。
CPO要让光纤直接从外侧接出,放在边缘最方便。同时光信号短距离传到GPU,减少光电转换的功耗。
把上面图里出现的每个核心组件单独拉出来讲一遍:物理位置、核心功能、行业玩家、技术壁垒。
最底层,整个系统的"地基"。提供机械支撑、电源传输、低速控制信号路由。
AI服务器主板做到 32-40 层,用 M6/M7 级覆铜板。
价值量:单板 5000-10000 美元
载板与PCB之间的电气和机械连接。直径约500μm,肉眼可见,一块封装下方有数千个。
SAC305锡银铜合金最常见。
关键作用:实现载板"插"到主板上的可拆卸性
芯片与PCB之间的"信号扇出层"。把芯片侧10μm级的密集焊点,扇出到500μm级的BGA焊球。
线宽线距10-15μm,10-20层积层。核心材料是日本味之素的ABF膜。
当前痛点:超大尺寸(110mm+)翘曲控制、良率
ABF载板的下一代替代品。用电子级玻璃替代ABF树脂作为基材。
平整度极高、CTE匹配硅、Df更低、TGV密度更大、可做到面板级尺寸。
时间表:2025-2026 小批量、2027-2028 规模量产
硅中介层与载板之间的连接点。直径约50μm(人头发丝量级),间距100μm。
比BGA小一个数量级。
关键作用:芯片侧的高密度I/O扇出到载板
台积电主推的高密度封装方案。一块薄硅片(含TSV穿硅孔)承载GPU+HBM,
实现Die-to-Die的超高带宽互联(5-10 TB/s)。
核心瓶颈:台积电CoWoS产能,2024-2026持续紧缺
AI芯片的"短期记忆"。8-12层DRAM裸片3D堆叠,通过TSV互联。
紧贴GPU布置,单堆栈带宽 1.2-1.5 TB/s(HBM3E),单颗GPU配8颗HBM。
当前一代:HBM3E(8层),下一代 HBM4(12层)2025量产
系统的"大脑"。Nvidia GB200由两颗 Blackwell GPU Die 拼接,
每颗约 800mm²,TSMC 4nm工艺,单颗功耗 600W+。
设计:Nvidia / AMD / 华为 / Google
共封装光学(Co-Packaged Optics)。把光收发器件搬到芯片旁边,
实现电信号↔光信号的高速转换。每个CPO模块输出 800G-1.6T 带宽,
一颗ASIC周围布置 8-16 个。
2026 年开始大规模商用
从CPO模块接出,连接到机柜内其他节点或机柜间交换机。
是当前唯一能在长距离(>1m)下传输 Tbps 级数据的介质。
AI集群机柜间几乎100%光纤互联。
下一代:硅光、共封装光波导
紧贴芯片顶部,里面有冷却液通道。GB200单卡功耗 1200W+,
风冷已无法处理,液冷成为标配。冷板材质多为铜或铝合金。
商业意义:液冷是2024-2026最大的服务器硬件升级
把PCB主板上的48V或12V直流电,转换成GPU所需的0.7-1V低压、上千安培大电流。
围绕GPU布置在PCB上。新一代采用"垂直供电"架构,从芯片背面直接喂电。
趋势:12V→48V→垂直供电
围绕GPU密布数百颗,吸收电源的高频纹波,确保芯片瞬态供电稳定。
高端AI服务器单板用量上万颗。部分高端设计开始把MLCC埋入PCB或载板内部。
这就是你之前研究过的领域
PCB主板边缘的电气连接接口。用于PCIe铜缆、NVLink铜缆、电源进线等。
Nvidia NVL72机架内 GPU 之间靠5000多根铜缆+连接器互联。
下一代:部分被CPO+光纤替代