那模糊匹配准确吗?
模糊匹配准确率较低(通常60-80%),需人工复核。
风险场景:
- 同一时间有多个相同金额的订单/退款 → 匹配错位
- 退款金额与订单金额不完全相同(部分退款) → 无法匹配
- 时间窗口内有多条记录 → 匹配顺序错误
准确性提升方法:
-
增加匹配条件(组合使用)
# 金额+时间+商品ID三级匹配 merged = pd.merge_asof( df_refund.sort_values('时间'), df_orders.sort_values('时间'), on='时间', by=['金额', '商品ID'], tolerance='3min' ) -
设置置信度标记
merged['置信度'] = '高' if 条件 else '中/低' # 条件:时间差<1min + 金额绝对匹配 -
必做人工抽查:随机抽取20%结果核对原系统,发现不匹配率>10%则改用其他方法
建议:将模糊匹配作为辅助工具,最终以平台API返回的parent_order_id或人工确认为准。