专注的网络爬虫是一个超文本系统,它调查、获取、索引和支持关于一组确定的主题的页面,这些主题定义了一个相对狭窄的网络部分。它只需要在硬件和网络资源上进行很少的投资,而且可以快速管理可观的覆盖范围,这仅仅是因为要做的事情相对较少。
聚焦网络爬虫由一个分类器执行,该分类器学习识别嵌入在主题分类中的示例的相关性,以及一个识别互联网上主题优势的蒸馏器。
专注的网络爬虫使用垂直搜索引擎来爬取特定于目标主题的网页。每个获取的页面都被分类为预定义的目标topic(s)。如果该页面被预测为主题,则提取其链接并将其附加到 URL 队列中。
否则,爬取过程不会从此页面继续。这种聚焦网络爬虫被称为“整页”聚焦网络爬虫,因为它对整页内容进行分类。换句话说,页面上所有连接的上下文就是整个页面内容本身。
这种网络爬虫更有效地创建索引,直接帮助我们实现从万维网庞大的存储库中更快、更相关地检索数据的基本要求。有几个搜索引擎已经开始使用这种方法来为用户提供更丰富的体验,同时创建 Web 内容直接增加他们的点击数。
爬虫管理器是超文本分析器之后系统的重要组成部分。该组件从全球网络下载文件。URL 存储库中的 URL 被恢复并创建到 Crawler Manager 中的缓冲区。
URL 缓冲区是一个优先级队列。它取决于 URL 缓冲区的大小,爬虫管理器会为爬虫动态创建一个实例,该实例将下载文件。为了更有效,爬虫管理器可以生成一个爬虫池。管理器还负责限制爬虫的速度并平衡它们之间的负载。这是通过检查爬虫来完成的。
爬虫是一个多线程Java代码,足以从互联网下载网页并将文件保存在文档存储库中。每个爬虫都有自己的队列,这会影响要爬取的 URL 文件。爬虫从队列中恢复了 URL。
不同的爬虫将共享一个请求到同一个服务器。如果是这样,将请求发送到类似的服务器将导致服务器过载。服务器在完成必须从共享请求并期待响应的爬虫中出现的请求时处于活动状态。