- >10-15 deepspeed zero dp stage(1)
- >10-16 deepspeed zero dp stage(2)
- >10-17 deepspeed zero dp stage(3)
- >10-18 deepspeed zero offload
- >11-1 大语言模型的预训练和后训练
- >11-2 大语言模型的指令微调技术
- >11-3 大模型微调的评估方法
- >11-4 大语言模型微调的数据构造
- >11-5 大语言模型中的思维链数据
- >11-6 大语言模型微调框架llamafactory
- >12-1 参数高效微调概述
- >12-2 深入理解lora参数高效微调的原理
- >12-3 深入理解prefix tuning和 prompt tuning
- >12-4 深入理解Adapter Tuning
- >13-1 人类反馈式强化学习概述
- >13-2 强化学习基本概念+策略
- >13-3 强化学习基本概念+值函数
- >13-4 贝尔曼方程介绍
- >13-5 随机策略梯度算法
- >13-6 【实战】强化学习实战之环境建模


