数据挖掘中的度量是如何计算的?

度量可以被组织成三个元素,包括分布的、代数的和整体的。这取决于所使用的聚合函数的类型。

Distributive - 如果聚合函数可以按如下交付方式计算,则它是分布式的。考虑数据独立成 n 个集合。它可以对每个分区使用该服务,从而产生 n 个聚合值。

如果使用该函数对n个聚合值的改变结果与使用该函数对整个数据集(没有分区)得到的结果相同,则可以以分布式方式评估该函数。

例如,count()可以通过首先将多维数据集划分为一组子多维数据集,对每个子多维数据集进行计算count(),然后对每个子多维数据集获取的计数求和来计算数据多维数据集。因此,count()是一种分布式聚合服务。

如果度量是通过使用分布式聚合服务获得的,那么它就是分布式的。分配措施可以有效地计算,因为它们可以以分配方式计算。

代数- 如果可以通过具有 M 个参数(其中 M 是有界正整数)的代数服务计算聚合函数,则聚合函数是代数的,每个参数都是通过使用分布式聚合服务获得的。

例如,avg()(平均值)可以通过sum()/计算count(),其中sum()和count()都是分布式聚合服务。类似地,可以显示 minN()和 max N()(相应地在给定集合中发现 N 个最小值和 N 个最大值)和 standarddeviation()是代数聚合服务。如果度量是通过使用代数聚合服务获得的,则它是代数的。

Holistic - 如果定义子聚合所需的存储大小没有固定界限,则聚合函数是整体的。如果不存在描述计算的具有 M 个参数(其中 M 是常数)的代数函数。

整体函数的示例,例如中位数 ()、众数 () 和秩 ()。如果测量是通过使用整体聚合函数获得的,则它是整体的。

大多数大型数据立方体应用程序需要有效计算分配和代数度量。存在一些有效的方法。相比之下,有效地计算整体度量是复杂的。仍然存在一种近似计算某些整体度量的有效方法。

例如median(),可以用来计算庞大数据集的近似中值,而不是计算精确值。在某些情况下,这些方法足以克服有效计算整体措施的困难。