- >9-3 大模型的算力基础-显卡结构深度剖析
- >9-4 大模型的算力基础-英伟达硬件架构体系(Fermi架构)
- >9-5 大模型的算力基础-英伟达硬件架构体系(Ampere架构)
- >9-6 大模型训练通信提效之Nvlink
- >9-7 大模型训练通信提效之拓扑结构
- >9-8 大模型分布式训练通信协议NCCL、GRPC、HTTP
- >10-1 大模型分布式训练概要-预训练任务与损失函数
- >10-2 【实战】手撸交叉熵损失函数代码
- >10-3 大模型分布式训练之数据并行
- >10-4 大模型分布式训练之模型并行概述
- >10-5 大模型分布式训练模型并行之Embedding层并行
- >10-6 Embedding并行 代码解读
- >10-7 模型并行之深入理解矩阵乘法并行原理
- >10-8 模型并行之深入理解矩阵乘法并行代码解析
- >10-9 模型并行之深入理解交叉熵损失的并行原理
- >10-10 模型并行之深入理解交叉熵损失并行的代码
- >10-11 模型并行之深入理解流水线并行
- >10-12 分布式训练之异构系统并行
- >10-13 大模型训练显存占用分析
- >10-14 分布式训练软件框架deepspeed


