有两种基于统计的算法,如下所示 -
回归- 回归问题处理位于输入值的输出值的评估。当用于分类时,输入值是来自数据库的值,输出值定义类别。回归可用于澄清分类问题,但它用于包括预测在内的不同应用。回归的基本形式是简单的线性回归,它只包括一个预测变量和一个预测。
回归可用于使用以下两种不同的方法来实现分类 -
Division - 数据分为位于类的区域。
预测- 创建公式来预测输出类的值。
贝叶斯分类- 统计分类器用于分类。贝叶斯分类基于贝叶斯定理。贝叶斯分类器在用于高数据库时具有高效率和高速度。
贝叶斯定理- 让 X 是一个数据元组。在贝叶斯方法中,X 被视为“证据”。假设 H 是一些假设,包括数据元组 X 属于特定的类 C。概率 P (H|X) 决定了定义数据。这个概率 P (H|X) 是假设 H 的影响已经给出“证据”或注意到数据元组 X 的概率。
P (H|X) 是 H 以 X 为条件的后验概率。例如,考虑数据元组的性质通常仅限于由属性年龄和收入定义的用户,而 X 是具有 Rs 的 30 岁用户。20,000 收入。假设 H 是用户将购买计算机的假设。因此,假设用户的年龄和收入是已知的,P (H|X) 反转用户 X 购买计算机的概率。
P (H) 是 H 的先验概率。例如,这是任何给定用户购买计算机的概率,无论其年龄、收入或其他数据如何。后验概率 P (H|X) 位于比不包含 X 的先验概率 P (H) 更多的数据上。
同样,P (X|H) 是 X 以 H 为条件的后验概率。它是用户 X 30 岁并获得 Rs 的概率。20,000。
P (H)、P (X|H) 和 P (X) 可以根据给定的信息进行测量。贝叶斯定理支持根据 P (H)、P (X|H) 和 计算后验概率 P (H|X) 的方法P(X)。它是由
$$P(H|X)=\frac{P(X|H) P(H)}{ P(X)}$$