100条样本够了吗

100条样本通常不够,建议至少取1000条。

原因说明:

  • 格式覆盖率不足:100条可能漏掉特定日期的异常格式(如大促期间退款单号带后缀 -SALE)。
  • 时间跨度风险:平台可能不定期更新单号规则(如从 REF-123 改为 RF123),需跨周/月取样。

稳健操作建议:

  1. 初次验证用100条快速检验是否有多余格式,发现异常立即补充样本。
  2. 后续自动化前取7天数据(约1000~5000条),检查是否全匹配。
  3. 写校验代码自动标记未匹配项:
    unmatched = df_refund[~df_refund['退款单号'].str.match(r'^REF-d+$')]
    if len(unmatched) > 0:
        print("发现异常格式:", unmatched.head())
    

总结:100条仅用于初步识别,上线前必须用更大样本量验证规则稳定性。