模型评估

模型评估

1. 奖励模型输出分数越高，代表回答越符合人类偏好（单选题）

A. 正确

B. 错误

2. RLHF可以彻底消除大模型所有幻觉问题（单选题）

A. 正确

B. 错误

3. 训练奖励模型时不需要使用SFT模型生成回答（单选题）

A. 正确

B. 错误

4. PPO训练过程中会同时兼顾原有能力与人类偏好（单选题）

A. 正确

B. 错误

5. 对话简洁度、实用性属于模型体验类评估指标（单选题）

A. 正确

B. 错误

6. 模型推理速度快慢不属于效果评估范围（单选题）

A. 正确

B. 错误

7. 领域垂直模型评估优先看重专业知识正确率（单选题）

A. 正确

B. 错误

8. 相同问题不同回答进行优劣对比即为偏好标注（单选题）

A. 正确

B. 错误

9. RLHF训练会显著提升模型训练显存与算力开销（单选题）

A. 正确

B. 错误

10. 基础预训练模型可以直接进入PPO强化学习阶段（单选题）

A. 正确

B. 错误