阶段掌握:0%
|
课程:0/19 |
0/19 掌握点
关于本阶段
围绕 Transformer 中的注意力机制展开。先进行基础知识准备,然后深入剖析注意力机制的原理,通过手撸 attention 实现代码进行实践。
介绍大模型中的残差结构与 FFN,探讨多种注意力机制以平衡效率与性能,并手搓多种注意力机制的实现代码,最后通过手撸 Transformer 实现代码深入理解整个架构。
学习
-
5-1 Transformer基础知识准备 试看
-
5-2 【实战】手撸LayerNorm 代码 试看
-
5-3 【实战】手撸softmax代码
-
5-4 深入理解注意力机制
-
5-5 掩码自注意力机制
-
5-6 多头注意力机制
-
5-7 【实战】手撸attention机制代码
-
5-8 【实战】手撸masked_self_attention
-
5-9 【实战】手撸MaskedMultiHeadAttention代码(1)
-
5-10 【实战】手撸MaskedMultiHeadAttention代码(2)
-
5-11 残差连接和FFN
-
5-12 【实战】手撸FFN和残差结构实现代码
-
5-13 【实战】手撸Transformer Decoder Block实现
-
5-14 【实战】手撸Transformer整体代码(1)
-
5-15 【实战】手撸Transformer整体代码(2)
-
5-16 attention机制的进化:GQA和MQA
-
5-17 【实战】手撸MQA注意力机制代码
-
5-18 【实战】手撸GQA注意力机制代码(1)
-
5-19 【实战】手撸GQA注意力机制代码(2)


