正负样本怎么选？

正负样本的选择取决于你训练模型的具体任务。简单来说：

正样本是你要模型识别或预测的目标。比如，做一个垃圾邮件过滤器，垃圾邮件就是正样本。
负样本是“不是目标”的其他所有数据。在垃圾邮件例子中，正常邮件就是负样本。

选择时要注意三点：

数量平衡：正负样本数量不要差距太大（比如1:100），否则模型可能会偷懒，全猜负样本。不平衡时可以尝试欠采样（减少负样本）或过采样（增加正样本）。
负样本多样性：负样本要覆盖各种“不像目标”的情况。比如识别猫，负样本除了狗、车，最好还有风景、文字等，否则模型可能把“非猫的圆物体”都当猫。
边界清晰：正负样本的区分要明确，避免模棱两可。例如识别“高清图片”，模糊的图片该归入负样本还是清理掉？需要提前定好标准。

实际操作中，你可以先收集所有正样本（比如100张猫的照片），再随机从大量无关数据中抽取负样本（比如100张非猫图片），最后检查是否有明显的误判（比如把戴帽子的猫误标为负样本），修正后再训练。