跳过异常组影响大吗

影响取决于数据分布,需视情况判断:

  • 正样本全为0或负样本全为0的组占比少(<10%):跳过影响小,结果仍可靠
  • 占比大(如冷门用户多):可能导致GAUC高估或低估,建议:
    • 将该组AUC记为0.5(随机水平),避免数据损失
    • 或加权时该组权重设为0,仅计算有效组

考试建议:记住标准做法是跳过,但实际应用中更推荐填充0.5以保持数据完整性。