- >5-2 【实战】手撸LayerNorm 代码
- >5-3 【实战】手撸softmax代码
- >5-4 深入理解注意力机制
- >5-5 掩码自注意力机制
- >5-6 多头注意力机制
- >5-7 【实战】手撸attention机制代码
- >5-8 【实战】手撸masked_self_attention
- >5-9 【实战】手撸MaskedMultiHeadAttention代码(1)
- >5-10 【实战】手撸MaskedMultiHeadAttention代码(2)
- >5-11 残差连接和FFN
- >5-12 【实战】手撸FFN和残差结构实现代码
- >5-13 【实战】手撸Transformer Decoder Block实现
- >5-14 【实战】手撸Transformer整体代码(1)
- >5-15 【实战】手撸Transformer整体代码(2)
- >5-16 attention机制的进化:GQA和MQA
- >5-17 【实战】手撸MQA注意力机制代码
- >5-18 【实战】手撸GQA注意力机制代码(1)
- >5-19 【实战】手撸GQA注意力机制代码(2)
- >6-1 相对位置编码介绍
- >6-2 旋转位置编码理论


