Train - 大模型笔记

大模型笔记

训练框架#

deepspeedai/DeepSpeed
unslothai/unsloth Finetune框架

强化学习训练框架#

分布式训练#

[2024.10] Liger Kernel: Efficient Triton Kernels for LLM Training
- linkedin/Liger-Kernel
[2023.04] PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel
[2019.10] ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
- [LLM]大模型显存计算公式与优化

« Previous Next »