XXXX 大 学 工 程 硕 士 学 位 论 文
机器学习的过程来看,DM是从现有大量数据中挖掘隐含的有用信息;从数据库的角度来看,数据挖掘就是从数据库出发,根据现有存储的海量信息进行发现有用知识的过程。比较通用的DM的理解是,从现有的大量数据中,同时这些数据具有量大、模糊、随机、不完全等特征,挖掘出隐藏其中的、未知的有价值知识,并提供给用户或数据使用者的过程。
3.1.2 数据挖掘的功能
数据挖掘的任务是从数据库中自动发现模式,对未来的趋势和行为进行预测,给用户或者数据拥有者提供决策支持。在实际应用中,数据挖掘具有分类、关联分析、自动预测行为、聚类、概念描述、偏差检测等功能[45]。
(1)分类
分类是找出一个类别的概念描述,具有相同的对象属性和特征,在数据挖掘中应用最多,是对该类的内涵描述。分类的方法有一下几种:神经网络、决策树方、贝叶斯方等。首先根据训练数据集,建立组类的数据的模型,然后用模型对未知对象类进行划分。
(2)关联分析
关联分析就是分析至少两个变量,从中发现可能出现的规律,是发现知识的一类重要方法。数据关联即从数据库中发现隐含的知识,主要包括:简单关联、时序关联和因果关联。关联规则A=>B就是满足A中条件的数据多半也同时满足B中条件。
(3)自动预测行为
数据挖掘能从海量数据中提取具有潜在价值的知识和信息,给用户或企业管理者的科学决策提供重要的数据支持,传统的分析都是在表层的,无法进行深入的挖掘分析。其中市场的预测就使用数据挖掘技术,进行海量市场相关数据自动搜索,提取信息,进行分析归纳,为用户的最后决策提供有价值的信息。
(4)聚类
概念聚类技术[46]最早在20世纪80年代初由Mchalski提出,该技术同时考虑划分出的内涵描述的类和对象间的距离,打破了传统聚类技术的局限。聚类就是将数据分成多个簇或者类,同一簇中对象相似度高,不同簇中对象差别大;是概念描述和偏差分析的先决条件。聚类的方法包括:神经网络法、机器学习法等等。通过聚类提高对现实世界的认识,聚类分析应用广泛,有图像处理、环境分析等。
XXXX 大 学 工 程 硕 士 学 位 论 文
(5) 概念描述和偏差检测
概念描述就是对对象的属性特征进行概括,有特征性和区别性描述。前者描述的是相同特征,关注的是对象中的共性;后者描述的是对象间的区别。偏差检测就是一种对数据库中的存在的不符合数据一般特性的异常数据进行检测技术。常用的方法是在参照值和检测结果间找差异数据,需要处理模型预测值和检测值的偏差、数据变异、和检测异常等隐含的信息。
3.1.3 数据挖掘的过程
数据挖掘是一个挖掘潜在有用知识的过程,挖掘出达到预期目标的过程是十分复杂的,不仅仅是对信息的简单过滤或继承,具有各自实现的步骤,进行数据的删选、归纳和分析等一系列操作,与现实中某一具体问题有着密切的联系。从技术的角度来看,数据挖掘过程主要有以下几个阶段,分别是:确定对象、数据准备、数据仓库、建立模型、挖掘数据、及评价等。过程描述如图所示 [47]。
评价 挖掘知识选择和转换数据挖掘搜集、抽样特定数据集数据仓库原始数据
图2-6 数据挖掘过程
图3-6表示了如何从最初的原始基础数据获取知识的过程,经历的主要步骤如下:理解数据、准备数据、建立、评价数据挖掘模型和获取结果。
(1)理解数据
数据挖掘最终是要获取知识,给用户提供决策支持。只有在挖掘开始前,
XXXX 大 学 工 程 硕 士 学 位 论 文
对所要挖掘的对象、对象所在环境、用户需求等做出明确的认识,对要进行挖掘的数据进行详细正确的理解,才可以使用数据挖掘技术挖掘数据。
(2)准备数据
准备数据阶段进行数据的梳理工作,主要包括数据的整理,分类,并将梳理好的数据按照一定的格式存储,为后阶段进行挖掘做好准备。
(3)建立、评价数据挖掘模型
针对准备数据阶段存储的数据,建立数据挖掘模型,需要满足现实需求。接着对多建立的模型进行评价,选择数据挖掘技术,采用发现的模式对所建立的模型进行评估,评估过程可以使用之前的数据,也可使用新数据。根据评估结果对模型进行完善,最终找出一个最适合的模型。
(4)获取结果
挖掘结果的解释工作是数据挖掘的最后阶段,结果为用户或者数据拥有者提供决策支持。
3.1.4 数据挖掘的主要方法
常见的数据挖掘的主要方法有[48]:关联规则挖掘法、聚类分析方法、神经网络、概念描述法等。在进行挖掘的过程中,往往将几种发发结合在一起使用,而不是采用一种。
(1)关联规则挖掘算法
关联规则描述的是对象间具有的关系的规律性,Apriori算法是关联规则挖掘算法中有效的一种,是一种挖掘关联规则的频繁项集算法,通过分析和挖掘数据的关联性,挖掘出信息在决策过程中具有重要价值。例如,确信度为85%的关联规则page22页面page63页面,表明85%的用户在访问了page22页面的同时也访问了page63页面。
(2)聚类分析方法
聚类分析方法是对数据对象的属性特征进行划分,通常利用相似度函数进行划分对象间的相似性和差异性。每个类可以表示成一个簇,簇内对象都具有相同的属性特征,而不同簇中的对象差别很大。
(3)神经网络
神经网络(Artificial Neural Network,ANN),主要针对大量关系复杂的数据,通过调整大量节点间的相互关系,进行信息处理,是一种模拟人的神经元功能,进行分布式并行信息处理的算法数学模型。ANN建立在人脑对客观
XXXX 大 学 工 程 硕 士 学 位 论 文
世界认知的基础上,依靠系统的复杂程度,进行信息的提取。
(4)概念描述法
概念描述(Concept Description,CD),作为数据挖掘的最基本描述方式,有比较和特征化两种。通过对现实对象的搜集、分析、归纳,并概括出数据的相关特性来实现的。常见的表现形式有:散列图、饼图、曲线等。
以上介绍了数据挖掘的主要方法及特点,在进行数据挖掘前,需要选择合适的数据挖掘方法,从实际情况和需要解决的问题出发,仔细分析对象数据,结合数据挖掘各种方法的优缺点,确定最合适的挖掘方法。
3.2 数据挖掘的意义及应用
数据挖掘技术在各种领域的应用十分广泛,具有大量数据分析需求,涉及零售业、银行、企业决策、航空、环境等领域,具有重要的实用价值,将会产生巨大的社会和经济效益。随着有关学科的不断发展,数据挖掘技术不仅可以发现行业内的潜在的有价值的新规律,还可以检验长期形成的知识模式。数据挖掘技术也能够不断完善自己的理论基础,为了使其在各行各业的有效使用。在不久的将来,数据挖掘技术将会为行业的发展起到重要的推进作用,帮助行业发现未来的发展趋势,增强企业在世界范围内的市场竞争力。
3.3 煤矿井下环境的数据挖掘
煤矿井下环境监测是对井下温湿度、瓦斯、一氧化碳等环境参数进行实时监测,数据信息是呈海量级的。利益传统人工的方法分析数据中的有价值信息是不现实的,因此本文采用数据挖掘技术进行对监测环境参数数据进行挖掘,并对井下开采区域的环境区域进行危险等级区分,提供智能化的信息处理,为煤矿安全生产工作提供保障。
3.3.1 井下环境模糊聚类分析
根据煤矿井下环境监测到的环境参数值,采用数据挖掘中聚类算法,实现对监测区域进行聚类。聚类分析是实现数据分组处理的主要方法,按照某种相似准则将特征空间中没有类别标记的矢量划分到子集中去,使得正规化的子集和聚类的数据类型代表整个样本集的某些属性特征[49]。由于现实中的待处理对象没有严格的类属,而传统聚类方法是将待处理的对象严格划分到某个类