链接挖掘有几个挑战如下 -
逻辑与统计依赖关系- 两种类型的依赖关系存在于图链接结构(表示对象之间的逻辑关系)和概率依赖关系(表示统计关系,例如对象属性之间的相关性,通常这些对象在逻辑上是相关的)。
这些依赖关系的连贯处理也是多关系数据挖掘的挑战,其中要挖掘的数据存在于多个表中。它应该搜索对象之间的几种可能的逻辑关系,此外还应该搜索属性之间的概率相关性的标准搜索。这需要一个巨大的搜索区域,这使得找到一个合理的数学模型更加复杂。这里可以应用归纳逻辑编程中开发的方法,它侧重于对逻辑关系的搜索。
特征构建- 在基于链接的分类中,它可以考虑对象的属性以及与其连接的对象的属性。此外,链接还可以具有属性。特征构建的目标是构建定义这些属性的单个特征。这可以包含特征选择和特征聚合。在特征选择中,只包含最具辨别力的特征。
Instances vs classes - 这暗示了模型是明确指代个体还是个体的类(通用类别)。前一种模型的好处是可以高概率地连接特定的个体。后一种模型的一个优点是它可以用于推广到有几个人的新情况。
有效使用标记和未标记数据- 最近的学习策略是结合标记和未标记数据。未标记的数据可以支持推断对象属性分布。未标记(测试)数据之间的链接允许我们使用链接对象的属性。标记(训练)数据和未标记(测试)数据之间的链接会产生依赖关系,这有助于创建更准确的推理。
链接预测-链接预测的一个挑战是对象之间特定链接的先验概率通常非常低。已经基于用于分析网络中节点邻近度的几种措施提出了多种链路预测方法。也提出了概率模型。对于庞大的数据集,在更高级别对链接进行建模会更有效。
封闭与开放世界假设- 大多数传统方法假设我们知道域中的所有潜在实体。这种“封闭世界”假设在实际应用中是不切实际的。该领域的工作涉及引入一种语言,用于在包含多个对象集的关系结构上定义概率分布。