Web内容挖掘被称为文本挖掘。内容挖掘是浏览和挖掘网页的文本、图像和图表,以确定内容与搜索查询的相关性。
这种浏览是在通过结构挖掘对网页进行聚类之后完成的,并根据与建议查询的相关性方法支持结果。
借助万维网上可用的大量数据,内容挖掘支持将搜索引擎的结果列表按照对查询中的关键字的最大适用性排序。
它可以定义为从标准语言文本中提取基本数据的阶段。它可以通过短信、文件、电子邮件、文档生成的一些数据是用通用语言文本编写的。文本挖掘可以从这些数据中得出有益的见解或模式。
文本挖掘是一种自动程序,可促进自然语言处理以从非结构化文本中获得有价值的见解。通过将数据转换为设备可以学习的信息,文本挖掘可以自动化按情感、主题和意图对文本进行分类的阶段。
文本挖掘是针对搜索引擎中用户搜索数据支持的特定数据。这使得整个 Web 的浏览能够获取集群内容,从而触发对这些集群内的特定网页的扫描。
结果是页面通过最大程度的适用性传递到最低的搜索引擎。虽然搜索引擎可以支持数百个关于搜索内容的网页的连接,但这种网络挖掘可以减少无关数据。当用于处理特定主题的内容数据库时,Web 文本挖掘是有效的。
例如,在线大学需要一个图书馆系统来检索与他们经常学习的领域相关的文章。这个明确的内容数据库允许仅提取这些主题中的数据,支持搜索引擎中搜索查询的最具体结果。
仅允许支持的最相关数据提供了更高质量的结果。这种生产力的提高直接满足了对文本和视觉内容挖掘的需求。对这种类型的数据挖掘的需求是收集、分类、组织和支持请求数据的用户在 WWW 上可访问的最佳数据。
此工具对于浏览网页上支持的多个 HTML 文件、图像和文本是必不可少的。搜索引擎按照相关性顺序支持生成的数据,从而为每次搜索提供更高的生产结果。