正负样本怎么选?

正负样本的选择取决于你训练模型的具体任务。简单来说:

  1. 正样本是你要模型识别或预测的目标。比如,做一个垃圾邮件过滤器,垃圾邮件就是正样本。
  2. 负样本是“不是目标”的其他所有数据。在垃圾邮件例子中,正常邮件就是负样本。

选择时要注意三点:

  • 数量平衡:正负样本数量不要差距太大(比如1:100),否则模型可能会偷懒,全猜负样本。不平衡时可以尝试欠采样(减少负样本)或过采样(增加正样本)。
  • 负样本多样性:负样本要覆盖各种“不像目标”的情况。比如识别猫,负样本除了狗、车,最好还有风景、文字等,否则模型可能把“非猫的圆物体”都当猫。
  • 边界清晰:正负样本的区分要明确,避免模棱两可。例如识别“高清图片”,模糊的图片该归入负样本还是清理掉?需要提前定好标准。

实际操作中,你可以先收集所有正样本(比如100张猫的照片),再随机从大量无关数据中抽取负样本(比如100张非猫图片),最后检查是否有明显的误判(比如把戴帽子的猫误标为负样本),修正后再训练。