为挖掘不频繁模式而产生的第一类技术将每个项目视为一个对称的二元变量。交易信息可以通过增加负项来二值化。它显示了将初始数据更改为具有正项和负项的事务的实例。利用当前的频繁项集生成算法,包括Apriori算法,可以推导出一些负项集。
只有当几个变量被视为对称二元时,这种方法才有可能(即,它被视为仅包含少数项目的否定的负模式)。如果每个项目都应该被视为对称二进制,那么由于以下原因,该问题在计算上变得困难。
当每个项目都用其相应的负项目进行扩充时,多个项目加倍。与其探索大小为 2 d的项目集格,其中 d 是初始数据集中的项目数,格变得更高。
当负项增加时,基于支持的剪枝不再有效。对于每个变量 x,x 或 x '提供了高于或等于 50% 的值。因此,即使支持阈值高达 50%,也有一半的项目会频繁出现。
对于较低的阈值,几个项目和可能包括它们的项目集将是频繁的。Apriori 采用的基于支持的剪枝方法仅在对大多数项集的支持较低时才有效;因此,各种频繁项集呈指数增长。
当负数增加时,每笔交易的宽度都会增加。考虑在初始数据集中有 d 项可用。对于包括购物篮交易在内的稀疏数据集,每笔交易影响的宽度要远小于d。
因此,受最大事务宽度 w max限制的频繁项集的最大大小会影响关联性较小。当包含负项时,事务的宽度增加到 d,因为事务中存在或不存在项目,但不是两者都存在。
因为最大事务宽度已经从 w max增加到 d,这会增加多个快速变化的频繁项集的数量。因此,一些当前的算法在习惯于冗长的数据集时往往会崩溃。
先前的蛮力方法在计算上是昂贵的,因为它迫使我们决定对大量正面和负面模式的支持。另一种方法不是用负项来增加数据集,而是根据相关正项的支持来确定负项集的支持。