大模型微调

大模型微调

1. 知识蒸馏是把小模型能力迁移到大模型中(单选题)

A. 正确

B. 错误

2. LoRA可以自由指定训练模型任意网络层(单选题)

A. 正确

B. 错误

3. 训练时设置过小批次容易导致训练不稳定(单选题)

A. 正确

B. 错误

4. 学习率预热结束后直接跳到最大学习率(单选题)

A. 正确

B. 错误

5. 增量微调不需要保存上一轮训练权重(单选题)

A. 正确

B. 错误

6. 4bit量化模型推理速度普遍更快(单选题)

A. 正确

B. 错误

7. SFT微调只能用于中文场景训练(单选题)

A. 正确

B. 错误

8. 数据集里重复样本过多容易引发过拟合(单选题)

A. 正确

B. 错误

9. 训练验证集loss平稳下降代表训练状态良好(单选题)

A. 正确

B. 错误

10. 多卡分布式微调可以突破单卡显存限制(单选题)

A. 正确

B. 错误