什么是网络挖掘?

网络挖掘可以广泛地被视为将适应的数据挖掘方法应用于网络,而数据挖掘被表示为算法的应用,以在固定到知识发现过程中的大部分结构化数据上找到模式。

Web 挖掘有一个独特的特性来支持多种数据类型的集合。网络有几个方面可以为挖掘过程提供多种方法,例如网页包含文本,网页通过超链接连接,用户活动可以通过网络服务器日志进行监控。

基于以下观察,Web 也对有效的资源和知识发现提出了巨大挑战。

对于高效的数据仓库和数据挖掘而言,Web 似乎太大了- Web 的大小约为数百 TB,并且仍在快速增长。一些组织和社团在 Web 上放置了一些可供公众访问的数据。适用于建立数据仓库以复制、保存或集成Web 上的某些数据。

网页的复杂性远远大于任何传统的文本文档集合——网页缺乏统一的结构。它们包含的创作风格和内容变化比任何一套书籍或其他传统的基于文本的文档都要多。

网络被视为一个巨大的数字图书馆;但是,这个库中大量的记录并没有按照任何特定的排序顺序排列。没有元素索引,也没有标题、作者、封面、目录等索引。在这样的库中搜索您想要的信息可能非常具有挑战性。

Web 是一个高度动态的信息源- 它不仅使 Web 增长迅速,而且其信息也在不断更新。新闻、股票市场、天气、体育、购物、公司广告和许多其他网页在 Web 上定期更新。链接信息和访问记录也经常更新。

Web 服务于广泛多样的用户社区- Internet 目前连接着 1 亿多个工作站,其用户社区仍在迅速扩大。用户可以有多种背景、兴趣和使用目标。

一些用户可能对数据网络的结构没有最好的了解,也无法意识到特定搜索的巨大成本。他们很容易因在网络的“黑暗”中摸索而迷失方向,或者因多次访问“跳跃”并不耐烦地等待一条信息而感到厌烦。