数值数据的离散化和概念层次生成技术有哪些?

由于适用数据范围的广泛多样性和数据值的频繁更新,为数值属性定义概念层次结构既复杂又费力。数字数据的概念层次结构生成方法有多种,如下所示 -

Binning - Binning 是一种基于定义数量的 bin 的自上而下的拆分技术。这些方法也用作数量减少和概念层次生成的离散化方法。这些技术可以递归地用于生成的分区,以创建概念层次结构。Binning 不使用类数据,因此是一种无监督的离散化技术。它容易受到用户指定的 bin 数量和异常值的影响。

直方图分析- 与分箱一样,直方图分析是一种无监督的离散化技术,因为它不使用类数据。直方图将属性 A 的值划分为称为桶的不相交范围。例如,在等宽直方图中,值被划分为相同大小的分区或价格范围,其中每个桶的宽度为 10 美元)。使用等频直方图,对值进行分区,以便每个分区包含相同数量的数据元组。

直方图分析算法可以递归地应用于每个分区,以自动生成多级概念层次结构,一旦达到预先指定的概念级别数,过程就会终止。

每个级别也可以使用最小间隔大小来控制递归过程。这指定了分区的最小宽度或每个级别的每个分区的最小值数。

基于熵的离散化- 熵通常用于离散化度量。它是由克劳德·香农 (Claude Shannon) 在他们关于信息论和信息增益概念的开创性工作中首次提出的。

基于熵的离散化是一种有监督的、自上而下的分裂技术。它在计算和确定分割点(用于划分属性范围的数据值)中探索类分布数据。

聚类分析- 聚类分析是一种流行的数据离散化方法。通过将 A 的值划分为集群或组,可以应用聚类算法来离散化数值属性 A。

聚类考虑A的分布,以及数据点的接近程度,因此可以产生高质量的离散化结果。通过遵循自上而下的拆分策略或自下而上的合并策略,聚类可用于为 A 生成概念层次结构,其中每个集群形成概念层次结构的节点。