从事务数据库中挖掘多级关联规则是什么?

挖掘多级关联规则的方法基于 supportconfidence 框架。采用自上而下的策略,在每个概念级别累积计数以计算频繁项集,从概念级别 1 开始,向较低的特定概念级别工作,直到可以使用 Apriori 算法找到更频繁的项集。

可以通过将数据中的低级概念替换为更高级别的概念或概念层次结构中的祖先来概括数据。在一个概念层次结构中,它表示为一棵树,根为 D,即与任务相关的数据。

多级关联的流行应用领域是购物篮分析,它通过搜索经常一起购买的商品集合来研究客户的购买习惯,这些商品以概念层次的概念显示。

每个节点表示已检查的项目或项目集。有多种方法可以在任何抽象级别找到频繁项集。一些正在使用的方法是“对所有级别使用统一的最小支持”,在低级别使用减少的最小支持,逐级独立。

多级数据库需要一个层次数据编码的事务表,而不是初始事务表。当我们只对交易数据库的一部分(例如食物)而不是所有项目感兴趣时,这很有用。这样我们可以首先收集相关的数据集,然后在任务相关集上重复工作。因此在事务表中,每个项目都被编码为一个数字序列。

对所有级别使用统一的最小支持- 当使用统一的最小支持阈值时,搜索过程被简化。可以采用优化技术,基于祖先是其后代的超集的知识,搜索避免检查包含其祖先没有最小支持的任何项目的项目集。

统一支持方法的主要缺点是较低抽象级别的项目将与较高抽象级别的项目一样频繁地出现。

在较低级别使用减少的最小支持- 每个抽象级别都有其最小支持阈值。抽象级别越低,等效阈值越小。以下用于挖掘支持减少的多级关联的搜索类别是 -

  • 逐级独立- 这是一个全广度搜索,频繁项集的背景知识用于修剪。此处检查每个节点,而不管是否发现其父节点是频繁的。

  • 单个项目的级别交叉过滤- 当且仅当其第 (i-1) 级的父节点频繁时,才确定作为第 i 级的项目。

  • 通过 k-itemset 进行级别交叉过滤- 当且仅当其在 (i-1)th 级别的等效父 A-itemset 频繁时,才确定第 i 级别的项集。