文本挖掘也称为文本分析。它是将非结构化文本转换为结构化数据以进行简单分析的过程。文本挖掘应用自然语言处理 (NLP),使机器能够了解人类语言并自动处理它。
它被定义为从标准语言文本中提取重要信息的过程。它可以通过短信、记录、电子邮件、文件生成的一些数据是用通用语言文本编写的。文本挖掘通常用于从此类数据中提取有益的见解或模式。
数据挖掘中有以下文本挖掘领域,如下所示 -
信息检索- 信息检索被认为是文件检索的补充,并且声明的文本被处理以合并。因此,文档检索之后是文本摘要过程,并针对用户的正式查询。
IR 系统支持缩小与特定问题相关的记录集。文本挖掘涉及使用非常复杂的算法来收集大量文档。此外,IR 可以通过减少文档数量显着推进分析。
数据挖掘- 数据挖掘是通过使用模式识别技术(包括统计和数学技术)传输存储在存储库中的大量数据来寻找有用的新相关性、模式和趋势的过程。它是对事实数据集的分析,以发现未预料到的关系,并以既合乎逻辑又对数据所有者有帮助的新颖方法总结记录。
在数据挖掘中,数据的隐藏模式被认为是根据多个类别成为一个有用的数据。这些数据被组装在一个区域中,包括用于分析它的数据仓库,并执行数据挖掘算法。这些数据有助于制定有效的决策,从而降低价值并增加收入。
自然语言处理 (NLP) - NLP 是人类语言的艺术。NLP 在文本挖掘中的目的是在数据提取过程中将系统作为输入交付。
NLP 应用程序的开发很困难,因为计算机通常需要人类使用特定、免费且结构异常的编程语言与它们“对话”。人类讲话通常不真实,因此它可能基于许多复杂的变量,包括俚语、社会背景和地方方言。
信息提取(IE) - 信息提取是从非结构化数据中自动提取结构化数据的任务。在一般情况下,此活动涉及使用 NLP 处理人类语言文本。