1. 大模型后训练技术#

1.1. 学习资料#

1.2. 开源工具#

1.3. 研究机构#

1.4. 核心模块#

1.4.1. 对齐算法#

1.4.1.1. SFT#
1.4.1.2. PEFT#

相关资料:

算法:

  • LORA
  • QLORA
  • Adapter
  • Prefix Tuning
  • Prompt Tuning
  • BitFit
1.4.1.3. DPO#
1.4.1.4. RL#
1.4.1.5. 推理和工具#
1.4.1.6. 蒸馏#

1.4.2. Reward Model#

1.5. 细分方向#

1.5.1. 形式化证明#

1.5.2. 角色扮演#

1.6. 理解对齐#