文本挖掘也称为文本分析。它是将非结构化文本转换为结构化数据以便于分析的过程。文本挖掘需要自然语言处理 (NLP),使设备能够学习人类语言并自动处理它。
它被定义为从标准语言文本中提取基本数据的过程。我们通过短信、文档、电子邮件、文件生成的一些数据是用通用语言文本编写的。文本挖掘通常用于从此类数据中提取有益的见解或模式。
文本挖掘是一种自动程序,它使用自然语言处理从非结构化文本中获取有价值的视觉。它可以将数据转换为设备可以学习的信息,文本挖掘可以自动按情感、主题和意图对文本进行分类。
文本挖掘过程包含以下从文件中提取数据的步骤,如下所示 -
Document Gathering - 第一步,收集文本文档,这些文档以多种格式存在。文档可以是pdf、word、html doc、css等形式。
文档预处理- 在此过程中,处理给定的输入文档以消除冗余、不一致、独立单词、词干和文件,为下一步准备,实施的阶段如下 -
标记化- 给定文档被视为字符串并在文档中识别单个单词,即给定文档字符串被拆分为一个单元或标记。
去除停用词- 在此过程中,去除诸如 a、an、but、and、of、the 等常量词。
Stemming - 词干是一组具有相似含义的自然单词。这种方法定义了特定单词的基础。有两种类型的方法是屈折和派生词干。著名的词干提取算法之一是波特算法,例如,如果文档与 resignation、resigned、resigns 等词有关,则在使用词干提取方法后将被视为辞职。
文本转换- 文本文档是一组单词(特征)及其外观。此类文档的表示有两种方法,即向量空间模型和词袋。
特征选择(属性选择) - 这种方法通过从输入文档中剔除不相关的性质,提供低数据库空间、最少的搜索方法。
数据挖掘/模式选择- 在这个过程中,传统的数据挖掘过程与文本挖掘过程相结合。结构化数据库促进了早期阶段产生的经典数据挖掘技术。
评估- 此阶段计算结果。这个结果可以被忽略,也可以用于下面的序列集。