决策树是随机森林算法的基本构建块。它被认为是机器学习中最流行的算法之一,并用于分类目的。决策树给出的决策可用于解释为什么做出某个预测。这意味着用户可以清楚地了解流程的进出过程。它们也称为CART,即分类和回归树。它可以可视化为一棵二叉树(在数据结构和算法中研究过的一棵树)。
树中的每个节点代表一个输入变量,叶节点(也称为终端节点)包含输出变量。这些叶节点用于对节点进行预测。创建决策树时,基本思想是将给定的空间分为多个部分。汇总所有值并尝试不同的拆分,以便获得更少的成本和最佳的预测值。以贪婪的方式选择这些值。
继续拆分这些节点,直到达到树的最大深度。使用决策树的想法是根据特定特征值将输入数据集划分为较小的数据集,直到每个目标变量都属于一个类别。进行该划分以便获得每个步骤的最大信息增益。
每个决策树均以根开头,这是进行第一次拆分的地方。应该设计一种有效的方法来确保定义了节点。
这就是基尼价值体现出来的地方。基尼系数被认为是衡量不平等程度的最常用方法之一。不等式是指节点中每个子集可能属于的目标类(输出)。
使用DecisionTreeRegressor时使用以下语法-
class sklearn.tree.DecisionTreeRegressor (*, criterion=’mse’,…
让我们了解如何使用DecisionTreeRegressor-
输出结果from sklearn import tree
my_data = [[1, 1], [5, 5], [2,3], [7,11]]
target_vals = [0.1, 1.5, 0.75, 1.73]
clf = tree.DecisionTreeRegressor()
print("The decision tree regressor has been called")
DTreg = clf.fit(my_data, target_vals)
print("Data has been fit")
pred_val = DTreg.predict([[4, 7]])
print("预测数据为 ")
print(pred_val)
The decision tree regressor has been called
Data has been fit
预测数据为
[1.5]
所需的软件包将导入到环境中。
定义了特征向量和目标值。
调用DecisionTreeRegressor,数据适合模型。
“预测”功能用于预测特征值。
输出显示在控制台上。