大模型分布式训练全景模拟器 (3D并行 + FSDP + GC 究极版)

从物理网线拓扑,到单机 TP 的流水线闭环,再到跨机 FSDP 的计算通信重叠与显存压榨(ZeRO + 激活重计算),全方位解码千亿大模型的训练黑魔法。

张量并行 (TP):
极度消耗带宽!必须绝对锁死在 Scale-up 域(单机)的 NVLink 高速公路内。如果跨机器,龟速网络会瞬间拖垮整个集群。
Scale-out 域 (跨机器 InfiniBand 网络)
Node 1 (NVLink)
GPU 0
GPU 1
GPU 2
GPU 3
Node 2 (NVLink)
GPU 4
GPU 5
GPU 6
GPU 7
Node 3 (NVLink)
GPU 8
GPU 9
GPU 10
GPU 11
Node 4 (NVLink)
GPU 12
GPU 13
GPU 14
GPU 15
准备就绪。请选择左侧的演示模式。
GPU 0
等待输入
GPU 1
等待输入
GPU 2
等待输入
GPU 3
等待输入

对比一:标准张量并行 (Naive TP)

GPU 计算核心
当前层计算 (Full Seq)
⚠️ 算力闲置 (死等网络)
NVLink 网络
网卡闲置
同步全局数据 (All-Reduce)

对比二:序列分块重叠技术 (Sequence Chunking) - 完美闭环

GPU 计算核心
当前层
Chunk 1
当前层
Chunk 2
当前层
Chunk 3
后续层计算
Chunk 1
后续层计算
Chunk 2
后续层计算
Chunk 3
NVLink 网络
网卡闲置
同步 C1
同步 C2
同步 C3
网卡闲置
准备执行反向传播时序流转。
时间线 (Time)
T1
T2
T3
T4
T5
T6
GPU 算力
(CUDA Compute)
算反向 L4
(求dW4, dX3)
算反向 L3
(求dW3, dX2)
算反向 L2
(求dW2, dX1)
算反向 L1
(求dW1)
IB 网卡
(Network Comm)
传梯度 dW4
(Reduce-Scatter)
传梯度 dW3
(Reduce-Scatter)
传梯度 dW2
(Reduce-Scatter)
传梯度 dW1
(Reduce-Scatter)

核心观察:在 T2, T3, T4 时刻,上下两个方块同时亮起。这意味着计算资源和网络资源被完全打满,成功掩盖了跨机通信延迟!

系统就绪。展示 FSDP “算完即抛”与 GC “以时间换空间” 的显存魔术。
L1
L2
丢弃 A2 🗑️
L3
L4
丢弃 A4 🗑️
Loss
目标 Y
GPU 0 物理显存 (峰值: 12 GB) 12 GB
12%
切片 W(1x)
优化器(2x)
完整 W(4x)
检查点激活
重算临时激活
触发重算