- >5-6 多头注意力机制
- >5-7 【实战】手撸attention机制代码
- >5-8 【实战】手撸masked_self_attention
- >5-9 【实战】手撸MaskedMultiHeadAttention代码(1)
- >5-10 【实战】手撸MaskedMultiHeadAttention代码(2)
- >5-11 残差连接和FFN
- >5-12 【实战】手撸FFN和残差结构实现代码
- >5-13 【实战】手撸Transformer Decoder Block实现
- >5-14 【实战】手撸Transformer整体代码(1)
- >5-15 【实战】手撸Transformer整体代码(2)
- >5-16 attention机制的进化:GQA和MQA
- >5-17 【实战】手撸MQA注意力机制代码
- >5-18 【实战】手撸GQA注意力机制代码(1)
- >5-19 【实战】手撸GQA注意力机制代码(2)
- >6-1 相对位置编码介绍
- >6-2 旋转位置编码理论
- >6-3 手撸旋转位置编码ROPE(1)
- >6-4 手撸旋转位置编码ROPE(2)
- >6-5 手撸旋转位置编码ROPE(3)
- >6-6 旋转位置编码的核心参数及其影响


