1. 大模型推理学习资料#

2. 大模型推理优化#

大模型推理关注:延迟、吞吐和成本,优化分:改模型参数、单机优化、分布式优化。

  • 改模型参数。
    • 量化
    • attention结构(mha、mqa、mla、sparse attention、 liner attention)
    • ffn结构(moe)
    • 其他结构(silu、rmsnorm)
    • 随机解码。
  • 单机优化。LLM是io约束的。
    • 算子融合。qkv融合,bias融合。
    • 高性能算子。flash attention、高性能矩阵运算gemm。需要深入到kernel层面。
    • 内存管理。continuous batching、paged attention。
  • 分布式优化。
    • 模型并行。tensor并行、pipeline并行、专家并行
    • 数据并行。zero3
    • 硬件特化。prefill和generate分离。

2.1. 改模型参数#

2.1.1. 量化#

2.1.2. attention结构#

2.1.3. 并行解码#

2.2. 单机优化#

2.2.1. attention#

2.2.2. FFN#

2.3. 分布式优化#