与数据挖掘相关的各种问题是什么?

数据挖掘是通过共享存储在存储库中的大量数据,使用模式识别技术(包括统计和数学技术)来寻找有用的新相关性、模式和趋势的过程。它是对事实数据集的分析,以发现意想不到的关系并以对数据所有者既合乎逻辑又对数据所有者有帮助的新方法总结记录。

与数据挖掘相关的各种问题如下 -

  • 隐私问题- 这是一个与技术业务无关的基本问题,而是一个社会问题。这是单一隐私的问题。数据挖掘使其适用于分析日常业务交易并收集有关单一购买习惯和偏好的基本数据量。

  • 数据完整性问题- 一个关键的实施挑战是合并来自多个来源的冲突或冗余信息。例如,银行可以保护不同数据库中的信用卡帐户。每个持卡人的地址可以不同。软件应该将数据从一个系统转换到另一个系统并选择当前输入的地址。

  • 关系数据库结构或多维结构- 技术问题是启动关系数据库结构还是多维结构更好。在关系结构中,数据保存在表中,支持即席查询。在多维结构中,多维数据集以数组形式链接,子集根据类别生成。虽然多维结构支持多维数据挖掘,但在客户端/服务器环境中实现的关系结构要好得多。

  • 成本- 数据挖掘查询越有效,从数据中收集的信息的效用就越大,增加收集和维护的数据量的压力就越大,从而提高了更快、更强大的数据挖掘查询的压力. 这增加了对更大、更快、价格更高的系统的压力。

  • 数据质量- 这是数据挖掘的最大挑战之一。数据质量定义了数据的准确性和完整性。数据质量也可能与被分析信息的结构和一致性有关。重复数据的存在、数据标准的缺失、更新的及时性和人为错误都会自动影响更复杂的数据挖掘技术的有效性。

  • 互操作性- 它定义了计算机系统或数据使用平均标准和流程与其他系统或数据进行操作的能力。对于数据挖掘,数据库和软件的互操作性对于允许同时搜索和分析多个数据库以及提供多个机构的数据挖掘活动的兼容性至关重要。