相似性度量提供了一些数据挖掘决策所基于的框架。包括分类和聚类在内的任务通常会考虑某些相似性度量的存在,而评估相似性技术较差的领域往往会发现搜索信息是一个繁琐的功能。
相似性度量有几种应用如下 -
信息检索- 信息检索(IR)系统的目标是满足用户的需求。换句话说,需求一般表现为在一些搜索引擎的在线文本框中引入一个简短的文本查询的形式。IR 系统通常不直接回答查询,相反,它们呈现通过某种相似性度量判断为与该查询相关的记录的排名列表。
由于相似性度量具有对有关查询的信息进行聚类和分类的效果,因此用户通常会发现对其信息需求的新解释,这些解释在重新制定查询时可能对他们有用,也可能没有用。
在查询是来自初始集合的记录的情况下,相似性度量可用于对集合中的记录进行聚类和分类。简而言之,相似性度量可以将基本架构插入到以前的非结构化集合中。
IR 系统中使用的相似性度量会扭曲一个人对整个数据集的看法。例如,如果用户在搜索引擎中键入一个查询,但在返回的前十个网页中没有找到满意的答案,那么它通常会尝试重新制定该查询一两次。
相似性度量被定义为从一对大小为 k 的元组到标量数的映射。按照惯例,所有相似性度量必须映射到范围 [-1, 1] 或 [0, 1],其中相似性分数为 1 表示最大相似性。相似性度量应该表现出随着被比较的两个项目中的几个属性的增加,它们的值会增加的特征。
骰子系数是精度和召回措施的调和平均值的概括。具有高调和平均值的系统理论上应该更接近理想的检索系统,因为它可以在高召回率水平下管理高精度值。精确率和召回率的调和平均值由下式给出
$$E=\frac{2}{\frac{1}{P}+\frac{1}{R}}$$
而 Dice 系数表示为
$$sim(d,d_{j})= D(A,B)=\frac{|A\cap B|}{\alpha|A|+(1-\alpha)|B|}\cong \frac{\propto \sum_{ k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+(1-\propto )\sum_{k=1}^{n}\mathrm{w}_{kj}^{2}}$$
α ε [0, 1]。可以看出Dice系数是一个加权调和平均值,令α=½。
重叠系数试图决定两组重叠的程度。重叠系数比较为
$$sim(d,d_{j})= D(A,B)=\frac{|A\cap B|}{min(|A|,|B|)}\cong \frac{\propto \sum_{k=1}^ {n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+\sum_{k=1}^{n }\mathrm{w}_{kj}^{2}}$$
重叠系数是使用最大值运算符代替最小值来计算的。