分类数据的离散化和概念层次生成技术是什么?

分类数据是离散数据。分类属性具有固定数量的不同值,涉及地理区域、工作类别和项目类型的值之间没有顺序。为分类数据生成概念层次结构有多种方法如下 -

  • 用户或专家在模式级别明确指定属性的部分排序- 分类属性或维度的概念层次结构通常包含一组属性。用户或专业人员可以通过在模式级别定义属性的部分或全部排序来简单地表示概念层次结构。

例如,关系数据库或数据仓库的维度区域可以包括以下属性组,例如街道、城市、省或州以及国家。可以通过在模式级别定义这些属性之间的总排序来表示层次结构,包括街道 < 城市 < 省或州 < 国家。

  • 通过显式数据分组指定层次结构的一部分- 这是概念层次结构的一部分的手动定义。在高级数据库中,通过显式值枚举来表示整个概念层次结构是不现实的。相反,它可以简单地表示一小部分中间级数据的显式分组。

  • 一组属性的规范,但不是它们的偏序- 用户可以描述形成概念层次结构的一组属性,但消除明确说明它们的偏序。系统可以尝试自动生成属性顺序以构建有意义的概念层次结构。

正是基于这种观察,可以基于给定属性集中每个属性的多个不同值自动创建概念层次结构。具有最不同值的属性位于层次结构的最低级别。一个属性的多个不同值越低,它在生成的概念层次结构中就越高。这种启发式规则在某些情况下运行良好。必要时,在分析生成的层次结构后,用户或专业人员可以使用一些局部级别的交换或调整。

  • 仅指定部分属性集- 用户可能对层次结构中需要包含的内容有一个模糊的概念,例如,用户名只能指定名字和姓氏,不包括中间名。正是通过在数据库设计中安装数据语义来管理这种部分指定的层次结构,以便将具有快速语义连接的属性固定在一起。