7天数据够吗?

7天数据通常足够,但有前提条件。

建议场景:

  • 日常平稳期:7天数据(约1000-5000条)可覆盖90%以上格式规律。
  • 大促/节假日:需增加至14-30天(如双11期间退款单号可能加后缀 -flash)。

验证方法:

# 检查7天数据中格式变化次数
df_7days['格式类型'] = df_7days['退款单号'].str.extract(r'^([A-Z]+)')
print(df_7days['格式类型'].value_counts())  # 看是否有多种前缀

风险提示:

  • 若出现2种以上前缀(如 REF-RF-),需补充30天数据
  • 包含月末/月初结算周期边界时,建议延长至10天

安全建议:先用7天数据测试代码,上线后持续监控异常格式,发现未匹配及时补充样本。