算法面试问题#
技术问题#
模型结构#
- deepseek有什么做的不好的地方?如何改进?
- 多少数据量能让模型work?
预训练#
- 预训练数据,怎么保证数据是新知识?
- 预训练用kenlm做过滤,这个对吗?ppl高的数据一定要丢弃?
- tokenizer怎么选?BBPE了解吗?
- BPE和wordpiece的区别?分别适合什么任务?
后训练#
- 在大模型对齐中,两个任务的数据集合并的时候指标下降,是什么原因?怎么解决?
- RL是怎么训练的,遇到了什么问题?
- DPO为什么会让大语言模型输出变长
应用问题#
- 工具类应用,比如devin、lovable是怎么做的,你看好他们的前景吗?
- deepsearch 是怎么实现的?
合成数据#
- 合成数据做得最好的是哪家公司?