级别: 硕士生
UID: 129969
精华: 0
发帖: 1822
威望: -5 点
积分转换
愚愚币: 124 YYB
在线充值
贡献值: 0 点
在线时间: 2485(小时)
注册时间: 2019-06-26
最后登录: 2024-11-26
楼主  发表于: 2019-10-22 10:15

 数据挖掘技术的应用探讨

    随着信息时代的到来,在享受信息技术所带来的便利的同时,人们也面临着信息时代所导致的信息爆炸问题,面对着越来越多的信息数据,从中获得有价值的知识变得越来越困难,而从上世纪80年代开始,伴随着数据库技术的发展和新应用的提出,数据挖掘技术应运而生。数据挖掘是一种能从海量的、随机的、不完整的、复杂的数据中提取出对人们可能潜在有用的信息和知识的过程,其中涉及到多种技术的内容,包括计算机技术、数据库技术、数据统计技术等。

    通过数据挖掘技术来处理大量的数据内容极大地提高人们处理信息的效率,从中可以获取大量有价值的信息和知识来帮助人们进行决策工作。在汉斯出版社《数据挖掘》期刊中,有论文学者简述了数据挖掘技术产生的背景及其概念,并进一步详细描述了数据挖掘的七个过程,最后详细阐述了数据挖掘技术的主要数据挖掘方法及其适用领域。

    数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程,一般来说,我们将数据挖掘过程概括为以下7个部分:定义挖掘目标、数据取样、数据探索、数据预处理、模式发现、模型构建、模型评价。数据挖掘的方法也有五种:分类和回归技术、聚类分析、关联规则、时序模式、异常检测。

    分类和回归技术是数据挖掘中使用最多最频繁的两种方法。简单地说,分类是将由一系列变量组成数据集 合映射到预先定义好的群组或类。分类的前提是这组数据已经有确定了的类别,所以分类又被称为有监督的学习。回归分析是用属性的历史数据预测未来趋势,找出各个数据之间的相关关系。回归分析通过假设存在可以拟合目标属性的函数,然后利用样本数据进行误差分析,确定最能体现目标属性的函数。简言之,回归分析是处理变量间(包括一对一和一对多)相关关系的一种统计方法。

    聚类分析是根据数据之间的相似度进行数据分类的一种方法,它是在没有划分数据类的前提下进行的。所以,聚类又被称为无指导的学习。聚类的输入对象是一组事先未被分类的数据,通过确定数据之间在原本的属性上的相似性来完成聚类任务。不管研究对象中是否真的有不同的类别,运用聚类分析都能将样本数据分成若干个类别,但其结果并不是唯一的,选择哪一个分类结果最终是由研究者的主观判断和分析总结决定的。

    数据挖掘技术从概念的提出到理论的完善、算法的成熟一步步成为了一套完整的体系,并成功应用在许多领域,例如金融、电子商务、医疗、机械工业、网络等领域,这也表明了数据挖掘技术有着广泛的应用前景和研究价值。面对信息时代所产生的大量数据,根据实际的业务需求我们可以按照本文介绍的数据挖掘过程一步步分析研究,并结合适当的数据挖掘方法提取出所需要的信息和知识,挖掘出潜在的模式关系。
分享:

愚愚学园属于纯学术、非经营性专业网站,无任何商业性质,大家出于学习和科研目的进行交流讨论。

如有涉侵犯著作权人的版权等信息,请及时来信告知,我们将立刻从网站上删除,并向所有持版权者致最深歉意,谢谢。