阶段掌握:0%
|
课程:0/18 |
0/18 掌握点
关于本阶段
深入介绍大模型分布式预训练的过程。先概述基本过程,然后分别解析数据并行、3D 混合并行、异构并行等不同并行方式的代码。探讨分布式训练的并行与优化策略,
介绍万亿参数预训练的软件框架,最后通过实战详细解析千亿 Token 万卡万亿参数预训练代码。
学习
-
10-1 大模型分布式训练概要-预训练任务与损失函数 试看
-
10-2 【实战】手撸交叉熵损失函数代码 试看
-
10-3 大模型分布式训练之数据并行
-
10-4 大模型分布式训练之模型并行概述
-
10-5 大模型分布式训练模型并行之Embedding层并行
-
10-6 Embedding并行 代码解读
-
10-7 模型并行之深入理解矩阵乘法并行原理
-
10-8 模型并行之深入理解矩阵乘法并行代码解析
-
10-9 模型并行之深入理解交叉熵损失的并行原理
-
10-10 模型并行之深入理解交叉熵损失并行的代码
-
10-11 模型并行之深入理解流水线并行
-
10-12 分布式训练之异构系统并行
-
10-13 大模型训练显存占用分析
-
10-14 分布式训练软件框架deepspeed
-
10-15 deepspeed zero dp stage(1)
-
10-16 deepspeed zero dp stage(2)
-
10-17 deepspeed zero dp stage(3)
-
10-18 deepspeed zero offload


