Skip to content

大模型预训练技术

Transformer 架构详解

  • Self-Attention (自注意力机制)
  • Multi-Head Attention
  • Feed Forward Network (FFN)

位置编码

  • 绝对位置编码 (Sinusoidal)
  • 旋转位置编码 (RoPE)

训练目标

  • Masked Language Modeling (MLM)
  • Causal Language Modeling (CLM, Next Token Prediction)

AI-HPC Organization