摘自《机器学习导论》

剪枝

通常，如果到达一个节点的训练实例数小于训练集的某个百分比（例如，5%），则无论是不纯（离散数据）还是误差（连续数据），该节点都不进一步划分。其基本思想是，基于过少实例的决策树会导致较大的方差，从而导致加大的泛化误差。在树完全构造出来之前就提前停止树构造称作树的先剪枝(prepruning)。

得到较小树的另一种可能做法是后剪枝(postpruning)，在实践中它比先剪枝效果更好。鉴于树的生长是贪心的，在每一步我们做出一个决策（即产生一个决策节点）以继续进行，绝不会说尝试其他可能的选择。唯一例外是后剪枝，它试图找出并剪出不必要的子树。

在后剪枝中，我们让树完全增长直到所有的树叶都是纯的且训练误差为0。然后我们找出导致过拟合的子树并剪除它们。我们从最初的被标记的数据集中保留一个剪枝集，在训练阶段不使用它。对每棵子树，我们用一个被该子树覆盖的训练实例标记的树叶节点替换它。如果该树叶在剪枝集上的性能不比该子树差，则剪掉该子树病保留树叶节点，因为该子树的附加复杂性是不必要的；否则保留子树。

先剪枝速度快，后剪枝准确率高。

今天我来科普一下什么是决策树的剪枝？有哪些优缺点

剪枝

参与讨论

回复《今天我来科普一下什么是决策树的剪枝？有哪些优缺点》

EditorJs 编辑器

作者信息

打赏记录

等待回复

上一篇

下一篇