模型评估
模型评估
1. RLHF第三阶段PPO训练会引入KL散度约束防止模型跑偏(单选题)
A. 正确
B. 错误
2. 训练奖励模型只需要正面优质回答,不需要负面回答样本(单选题)
A. 正确
B. 错误
3. 模型推理速度、并发能力属于大模型落地性能评估指标(单选题)
A. 正确
B. 错误
4. BLEU分数越高,代表生成文本和标准答案相似度越高(单选题)
A. 正确
B. 错误
5. 仅依靠SFT微调就能完美实现人类价值观全面对齐(单选题)
A. 正确
B. 错误
6. 大模型出现一本正经胡说八道,属于典型幻觉现象(单选题)
A. 正确
B. 错误
7. 偏好排序标注只需要分出优劣,无需精细打分(单选题)
A. 正确
B. 错误
8. 算力不足的场景下不建议大规模开展完整RLHF训练(单选题)
A. 正确
B. 错误
9. 多轮对话评估只考核最后一轮回答质量即可(单选题)
A. 正确
B. 错误
10. 安全对齐训练可以有效降低模型被恶意诱导的概率(单选题)
A. 正确
B. 错误