树木修剪的方法有哪些?

修剪是减少决策树大小的过程。它可以通过定义树的大小或消除支持小功率的树区域来降低过度拟合的风险。修剪通过修剪训练信息中由于噪声或异常值而出现异常的分支来支持,并以提高树的泛化效率的方法支持原始树。

各种方法通常使用统计措施来删除最不可靠的部门,通常会导致更快的分类并提高树对独立测试数据进行正确分类的能力。

树修剪有两种方法,如下所示 -

预剪枝方法

在预剪枝方法中,一棵树通过早期的构造来“剪枝”(例如,通过确定不在提供的节点处进一步划分或划分训练样本的子集)。停止后,节点变成叶子。叶子可以影响子集样本之间最常见的类别,或者这些样本的概率分布。

在制作一棵树时,可以使用包括统计显着性、x2、信息增益等在内的度量来创建拆分的慷慨度。如果在节点对样本进行分区会导致分裂低于预先指定的阈值,则停止对给定子集的分区。选择合适的阈值存在问题。高阈值会导致过于简化的树,而低阈值会导致非常小的简化。

后修剪方法

后修剪方法从“完全生长”的树中消除了分支。通过消除其分支来修剪树节点。价格复杂度剪枝算法是后剪枝方法的一个实例。修剪后的节点变成叶子,并由其先前分支之间最常见的类标记。

对于树中的每个非叶节点,如果该节点的子树被缩短,算法会计算可能出现的预期错误率。接下来,使用每个分支的错误率计算如果节点未被修剪时出现的预期错误率,根据每个分支的观测维度加权连接。如果修剪节点导致更高的预期错误率,则保留子树。因此,它被修剪。

在创建一组越来越修剪的树后,一个独立的测试集可以估计每棵树的效率。减少预期错误成本的决策树是首选。