100条样本够了吗
100条样本通常不够,建议至少取1000条。
原因说明:
- 格式覆盖率不足:100条可能漏掉特定日期的异常格式(如大促期间退款单号带后缀
-SALE)。 - 时间跨度风险:平台可能不定期更新单号规则(如从
REF-123改为RF123),需跨周/月取样。
稳健操作建议:
- 初次验证用100条快速检验是否有多余格式,发现异常立即补充样本。
- 后续自动化前取7天数据(约1000~5000条),检查是否全匹配。
- 写校验代码自动标记未匹配项:
unmatched = df_refund[~df_refund['退款单号'].str.match(r'^REF-d+$')] if len(unmatched) > 0: print("发现异常格式:", unmatched.head())
总结:100条仅用于初步识别,上线前必须用更大样本量验证规则稳定性。