决策树归纳是从带有类标签的训练元组中学习决策树。决策树是一种类似时序图的树结构,其中每个内部节点(非叶节点)表示对属性的测试,每个分支定义测试结果,每个叶节点(或终端节点)影响一个类标签。树中最大的节点是根节点。
决策树归纳生成类似流程图的结构,其中每个内部(非叶)节点表示对属性的测试,每个分支对应于测试结果,每个外部(叶)节点表示类预测。
在每个节点,算法选择“最佳”属性将数据划分为单个类。当决策树归纳用于属性子集选择时,从给定数据生成树。
树中没有出现的一些属性被认为是不相关的。树中出现的属性集形成属性的减少子集。决策树归纳算法支持定义属性测试条件及其针对多种属性类型的相关结果的方法。
Binary Attributes - 二元属性是一个名义属性,只有两个元素或状态,包括 0 或 1,其中 0 经常表示该属性不存在,1 表示它存在。如果两个状态等价于 true 和 false,则二进制属性定义为布尔值。
如果二元属性的两个状态具有相同的价值并且具有相同的权重,则该二元属性是对称的。对于必须将哪些结果编码为 0 或 1 没有偏好。一个示例可以是具有男性和女性状态的属性性别。
如果状态的结果不是同等重要的,例如 HIV 医学检查的阳性和阴性结果,则二元属性是不对称的。按照惯例,它可以编码最重要的结果,通常是最接近的结果,用 1(例如,HIV 阳性)和不同的 0(例如,HIV 阴性)编码。
名义属性- 名义定义与名称相关联。名义属性的值是事物的符号或名称。每个值都定义了某种类型的类别、代码或状态等。名义属性被定义为分类的。这些值没有任何重要的顺序。在计算机科学中,这些值也称为枚举。
序数属性- 序数属性是具有适用值的属性,这些值具有基本系列或排名,但连续值之间的大小是未知的。
序数属性可以进行二元或多路拆分。考虑到分组不违反属性值的顺序性质,可以组合有序属性值。
数字属性- 数字属性是定量的。它是一个可计算的量,以数值或实数值表示。它可以是区间缩放的或比率缩放的。