大模型 3D 分布式训练全景模拟器 (4合1 究极版)

张量并行 (TP):
极度消耗带宽！必须绝对锁死在 Scale-up 域（单机）的 NVLink 高速公路内。如果跨机器，龟速网络会瞬间拖垮整个集群。

Scale-out 域 (跨机器 InfiniBand 网络)

Node 1 (NVLink)

GPU 0

GPU 1

GPU 2

GPU 3

Node 2 (NVLink)

GPU 4

GPU 5

GPU 6

GPU 7

Node 3 (NVLink)

GPU 8

GPU 9

GPU 10

GPU 11

Node 4 (NVLink)

GPU 12

GPU 13

GPU 14

GPU 15

TP 深度剖析控制台

模式 1：4层网络切分流转
演示通过对右矩阵W进行“列-行交替切分”，将 All-Reduce 通信次数从 4 次砍半到 2 次。

模式 2：算力闲置与无缝闭环
当 Chunk 1 同步完成后，GPU 不会闲置等待！它会立刻将已同步的数据投入下一层计算，形成无缝流水线，彻底消灭 GPU 气泡。

准备就绪。请选择左侧的演示模式。

GPU 0

等待输入

GPU 1

等待输入

GPU 2

等待输入

GPU 3

等待输入

对比一：标准张量并行 (Naive TP)

GPU 计算核心

当前层计算 (Full Seq)

⚠️ 算力闲置 (死等网络)

NVLink 网络

网卡闲置

同步全局数据 (All-Reduce)

对比二：序列分块重叠技术 (Sequence Chunking) - 完美闭环

GPU 计算核心

当前层
Chunk 1

当前层
Chunk 2

当前层
Chunk 3

后续层计算
Chunk 1

后续层计算
Chunk 2

后续层计算
Chunk 3

NVLink 网络

网卡闲置

同步 C1

同步 C2

同步 C3

网卡闲置

准备执行反向传播时序流转。

时间线 (Time)

T1

T2

T3

T4

T5

T6

GPU 算力
(CUDA Compute)

算反向 L4
(求dW4, dX3)

算反向 L3
(求dW3, dX2)

算反向 L2
(求dW2, dX1)

算反向 L1
(求dW1)

IB 网卡
(Network Comm)

传梯度 dW4
(Reduce-Scatter)

传梯度 dW3
(Reduce-Scatter)

传梯度 dW2
(Reduce-Scatter)

传梯度 dW1
(Reduce-Scatter)

核心观察：在 T2, T3, T4 时刻，上下两个方块同时亮起。这意味着计算资源和网络资源被完全打满，成功掩盖了跨机通信延迟！

显存调度与 GC 控制台

开启激活重计算 (GC)

开启后，L2, L4 激活值不进显存直接丢弃。反向传播时触发紫色的重新前向传播计算。

显存视图隐藏开关 (不影响总占用)

显示权重与优化器 (W & OS) 显示梯度缓存 (Gradients)

系统就绪。展示 FSDP “算完即抛”与 GC “以时间换空间” 的显存魔术。

L1

★

→

L2

★

丢弃 A2 🗑️

→

L3

★

→

L4

★

丢弃 A4 🗑️

→

Loss

目标 Y

GPU 0 物理显存 (峰值: 12 GB) 12 GB

12%

切片 W(1x)

优化器(2x)

完整 W(4x)

检查点激活

重算临时激活

触发重算

大模型分布式训练全景模拟器 (3D并行 + FSDP + GC 究极版)

并行策略切分视图

TP 深度剖析控制台

对比一：标准张量并行 (Naive TP)

对比二：序列分块重叠技术 (Sequence Chunking) - 完美闭环

跨机通信重叠控制台

显存调度与 GC 控制台

显存视图隐藏开关 (不影响总占用)