链接挖掘有几个任务如下 -
基于链接的对象分类- 在传统分类方法中,对象根据定义它们的属性进行分类。基于链接的分类预测对象的类别不仅取决于其属性,还取决于其链接以及链接对象的属性。
网页分类是基于链接的分类的一个很好识别的实例。它根据词外观(出现在页面上的词)和锚文本(超链接词,即它可以点击链接时可以点击的词)来预测网页的分类,这两者都服务于作为属性。此外,分类取决于页面之间的链接以及页面和链接的不同属性。
对象类型预测- 根据对象的属性和链接以及与其连接的对象的属性来预测对象的类型。在书目领域,可能需要将出版物的地点类型预测为会议、期刊或研讨会。在连接域中,同样的任务是预测连接联系人是通过电子邮件、电话还是邮件。
链接类型预测- 这会预测链接的类型或目标,具体取决于所包含对象的属性。例如,给定流行病学数据,它可以尝试预测两个相互了解的人是家人、同事还是熟人。
预测链接存在- 与链接类型预测不同,链接类型预测可以理解两个对象之间存在连接并需要预测其类型,相反,它可以预测两个对象之间是否存在链接。示例包括预测两个网页之间是否存在链接以及一篇论文是否会引用另一篇论文。
链接基数估计-链接基数估计有两种形式。首先,它可以预测到一个对象的链接数量。例如,这有助于根据指向网页的链接(内链接)的数量预测网页的权威性。类似地,多个外链接可用于识别充当中心的网页,其中中心是指向同一案例的多个权威页面的一个或一组网页。
对象协调- 在对象协调中,功能是根据两个对象的属性和链接来预测它们是否完全相同。该功能在信息抽取、去重、对象统一、引文连接中很常见,也称为记录链接或身份不确定性。