填0.5是防止冷门数据浪费?
可以这么理解,但不完全准确。
填一个很小的值(比如0.5,甚至更小的值)主要是为了防止模型在训练时对那些「出现次数很少」的样本完全失去学习能力。如果不做平滑,比如概率计算中直接出现0,模型就会默认这种情况永远不会发生,导致预测时出现「零概率」问题。
简单说:不是害怕数据浪费,而是为了避免模型过于绝对、缺乏泛化能力。 平滑操作能让模型对少见情况也留一点可能性,而不是直接忽略它们。
可以这么理解,但不完全准确。
填一个很小的值(比如0.5,甚至更小的值)主要是为了防止模型在训练时对那些「出现次数很少」的样本完全失去学习能力。如果不做平滑,比如概率计算中直接出现0,模型就会默认这种情况永远不会发生,导致预测时出现「零概率」问题。
简单说:不是害怕数据浪费,而是为了避免模型过于绝对、缺乏泛化能力。 平滑操作能让模型对少见情况也留一点可能性,而不是直接忽略它们。