1. 大模型学习资料#

2. 论文和开源库#

2.1. DeepSeek#

2.2. Google#

2.3. Openai#

2.4. 智谱AI#

3. 大模型预训练核心模块#

3.1. 数据预处理#

3.2. Tokenization#

介绍和代码库:

算法:

3.3. 模型架构#

3.4. 注意力机制#

3.5. 训练策略#

  • 优化器选择(Adam/AdamW/LAMB)
  • 学习率调度(线性预热+余弦衰减)
  • 批次策略(动态批处理/梯度累积)
  • 混合精度训练(FP16/BF16)

3.6. 分布式训练#

  • huggingface: Model Parallelism
  • 数据并行(Data Parallelism)
  • 流水线并行(Pipeline Parallelism)
  • 张量并行(Tensor Parallelism)
  • 3D并行策略组合

3.7. 损失函数#

  • 语言建模损失(标准交叉熵)
  • 掩码语言建模(MLM)
  • 序列到序列损失
  • 特殊token处理策略

3.8. 监控与调试#

  • 训练动态监控(损失/梯度/激活值)
  • 显存使用分析
  • 异常检测(梯度爆炸/消失)
  • 模型检查点管理

3.9. 扩展技术#

  • 课程学习(Curriculum Learning)
  • 模型增长(渐进式训练)
  • 知识蒸馏(Teacher-Student)
  • 持续预训练