7天数据够吗?
7天数据通常足够,但有前提条件。
建议场景:
- 日常平稳期:7天数据(约1000-5000条)可覆盖90%以上格式规律。
- 大促/节假日:需增加至14-30天(如双11期间退款单号可能加后缀
-flash)。
验证方法:
# 检查7天数据中格式变化次数
df_7days['格式类型'] = df_7days['退款单号'].str.extract(r'^([A-Z]+)')
print(df_7days['格式类型'].value_counts()) # 看是否有多种前缀
风险提示:
- 若出现2种以上前缀(如
REF-和RF-),需补充30天数据 - 包含月末/月初结算周期边界时,建议延长至10天
安全建议:先用7天数据测试代码,上线后持续监控异常格式,发现未匹配及时补充样本。