文本挖掘也称为文本分析。它是将非结构化文本转换为结构化数据以进行简单分析的过程。文本挖掘应用自然语言处理 (NLP),使机器能够了解人类语言并自动处理它。
它被定义为从标准语言文本中提取基本信息的过程。它可以通过短信、记录、电子邮件、文件生成的一些数据是用通用语言文本编写的。文本挖掘通常用于从此类数据中提取有益的见解或模式。
文本挖掘是一种自动方法,它使用自然语言处理从非结构化文本中获得有价值的见解。它可以将数据转换为设备可以学习的信息,文本挖掘使通过情感、主题和意图定义文本的方法自动化。
有两种方法,过滤和流式传输。过滤可以删除不需要的单词或相关数据。流词支持相关词的词根。使用流式方法后,每个单词都由其根节点定义。
文本挖掘的主要目标是使用户能够从基于文本的资产中提取信息并处理检索、提取、摘要、分类(监督)和聚类(无监督)、分割和关联等操作。
采用文本挖掘后的主要原因是商业行业竞争更加激烈,一些组织寻求增值解决方案与其他组织合作。随着业务完成度的提高和用户观点的改变,组织正在获得巨额投资以获得能够分析用户和对手数据以提高竞争力的解决方案。
文本挖掘有利于管理文本数据。文本数据是非结构化的、难以操作且不明确的,因此文本挖掘成为数据交换最有用的方法,而数据挖掘则用于业务数据。
每天都有大量的新记录和数据通过经济、学术和社会活动产生,其中许多具有巨大的潜在经济和社会价值。
需要多种技术,包括文本和数据挖掘和分析来挖掘这种潜力。此方法的目的是减少从大量文本文档中获取数据所需的工作量。
结构化数据- 它涉及可以保存在数据库 SQL 中的行和列表中的所有记录。它们有一个关系键,可以简单地映射到预先设计的字段中。今天,这些数据是开发中处理得最多的,也是处理信息的最简单的方法。
半结构化数据- 半结构化数据是不包含在关系数据库中但具有几个组织特征的数据,这些特征使其更易于分析。对于某些进程,它可以将它们保存在关系数据库中(对于某些类型的半结构化数据可能非常困难),但半结构的存在是为了缓解空间、确定性或计算。
非结构化数据- 非结构化数据描述了大约 80% 的数据。它包含文本和多媒体内容。它包含电子邮件信息、文字处理文件、视频、照片、音频文件、演示文稿、网页和多种类型的业务文档。