属性子集选择通过消除不相关或冗余的属性(或维度)来减少数据集的大小。属性子集选择旨在发现最小的属性集,使得数据类的结果概率分布与使用所有属性访问的原始分布尽可能接近。对减少的属性集进行数据挖掘有一个额外的好处。它减少了发现的模式中出现的多个属性,提供了创建更易于理解的模式。
对于 n 个属性,有 2 n 个可能的子集。对最优属性子集的详尽搜索可能非常昂贵,尤其是当 n 和多个数据类增加时。因此,探索减少搜索空间的启发式方法经常用于属性子集选择。
这些方法通常是贪婪的,因为在搜索属性空间时,它们总是创建当时看起来更好的选择。他们的策略是做出局部最优选择,希望这将导致全局最优解。这种贪婪的方法在实践中是有效的,并且可以接近估计最佳解决方案。
最好和最差的属性通常使用统计显着性测试来确定,这些测试认为属性是相互分离的。可以使用其他一些属性评估度量,包括用于构建分类决策树的信息增益度量。
有以下属性子集选择方法如下 -
Stepwise forward selection - 该过程以一组空属性作为缩减集开始。确定原始属性中最好的并将其添加到缩减集。在每个后续迭代或步骤中,剩余的原始属性中最好的被插入到集合中。
逐步向后消除- 该过程从完整的属性集开始。在每一步,它都会删除集合中剩余的最差属性。
前向选择和后向消除的组合- 可以将逐步前向选择和后向消除方法连接起来,以便在每个步骤中,该过程选择最佳属性并从剩余属性中消除最坏的属性。
决策树归纳- 决策树算法包括 ID3、C4.5 和 CART,最初是为分类而设计的。决策树归纳构建了一个类似流程图的结构,其中每个内部(非叶)节点表示对一个属性的测试,每个分支对应于测试的结果,每个外部(叶)节点表示一个类预测。在每个节点,算法选择“最佳”属性将数据划分为单独的类。