Web 挖掘定义了使用数据挖掘技术在 Web 的帮助下通过从基于 Web 的记录和服务、服务器日志和超链接进行处理来提取有益模式趋势和数据的过程。网络挖掘的目标是通过收集和分析信息来找到网络记录中的设计,以获得必要的洞察力。
Web 挖掘可以被视为适用于互联网的数据挖掘方法的软件,而数据挖掘被定义为应用算法来发现固定在知识发现过程中的一般结构化数据的模式。
Web 挖掘具有提供一组多种数据类型的独特功能。网络有多个元素,为挖掘过程产生了多种方法,包括包含文本的网页、通过超链接链接的网页以及可以通过网络服务器日志监控客户活动。
网络使用挖掘有各种规则如下 -
预处理- 网络使用日志不是采矿应用程序可访问的格式。对于要在挖掘应用程序中使用的某些数据,可能需要重新格式化和清理数据。有一些与使用博客特别相关的问题。处理阶段包括一些步骤,包括清理、用户识别、会话识别、路径完成和格式化。
数据结构- 已经提出了几种独特的数据结构来跟踪在网络使用挖掘过程中识别的模式。使用的基本数据结构称为树。树是有根树,其中从根到叶的每条路径代表一个序列。树可以为模式匹配应用程序保存字符串。树木的唯一问题是空间要求。
模式发现- 用于点击流数据的最常见数据挖掘技术是发现遍历模式。遍历模式是用户在会话中检查的一组页面。网络使用挖掘可能会发现另一种类型的模式。使用不同的组合来发现模式,这些组合用于发现不同的特征并用于不同的目的。
模式分析- 发现模式后,必须对其进行分析以确定如何使用该信息。一些模式可以被删除并且不被确定为感兴趣。
模式分析是查看和解释发现活动结果的阶段。不必识别频繁类型的遍历模式,但也可以识别由于其唯一性或统计特性而感兴趣的模式。