数据预处理 下载本文

数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等

数据挖掘中的数据预处理

现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提前数据挖掘的质量产生了数据预处理技术。 数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。

数据清理

用来自多个联机事务处理 (OLTP) 系统的数据生成数据仓库的进程的一部分。该进程必须解决不正确的拼写、两个系统之间冲突的拼写规则和冲突的数据(如对于相同的部分具有两个编号)之类的错误。

编码或把资料录入时的错误,会威胁到测量的效度。数据清理主要解决数据文件建立中的人为误差,以及数据文件中一些对统计分析结果影响较大的特殊数值。常用的数据清理方法包括可编码式清理和联列式清理。

数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

数据集成

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

数据变换

通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。

数据归约

数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。 目前,数据预处理是目前数据挖掘一个热门的研究方面,毕竟这是由数据预处理的产生背景所决定的--现实世界中的数据几乎都脏数据。 一、数据归约基本知识:

对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。 对数据的描述,特征的挑选,归约或转换是决定数据挖掘方案质量的最重要问题。在实践中,特征的数量可达到数百,如果我们只需要上百条样本用于分析,就需要进行维归约,以挖掘出可靠的模型;另一方面,高维度引起的数据超负,会使一些数据挖掘算法不实用,唯一的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现:列(特征),行(样本)和特征的值,数据归约过程也就是三个基本操作:删除列,删除行,减少列中的值。 在进行数据挖掘准备时进行标准数据归约操作,我们需要知道从这些操作中我们会得到和失去什么,全面的比较和分析涉及到如下几个方面的参数: (1)计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。

(2)预测/描述精度:估量了数据归纳和概括为模型的好坏。

(3)数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。

数据归约算法特征: (1)可测性 (2)可识别性 (3)单调性 (4)一致性 (5)收益增减 (6)中断性 (7)优先权

二、数据归约方法: 1、特征归约:

用相应特征检索数据通常不只为数据挖掘目的而收集,单独处理相关特征可以更有效,我们希望选择与数据挖掘应用相关的数据,以达到用最小的测量和处理量获得最好的性能。特征归约处理的效果: (1)更少的数据,提高挖掘效率 (2)更高的数据挖掘处理精度 (3)简单的数据挖掘处理结果 (4)更少的特征。

和生成归约后的特征集有关的标准任务有两个:

(1)特征选择:基于应用领域的知识和挖掘目标,分析者可以选择初始数据集中的一个特征子集。特征排列算法,最小子集算法 (2)特征构成:特征构成依赖于应用知识。 特征选择的目标是要找出特征的一个子集,此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较,此方法的主要缺点是特征的分布未知。最优方法的近似: (1)只对有前景的特征子集进行检查 (2)用计算简单的距离度量替换误差度量

(3)只根据大量数据的子集选择特征。

引 言

空间数据挖掘是指从空间数据库中提取隐含的但为人所感兴趣的空间规则、概要关系或摘要数据特征等。其原始数据具有数据结构不一致、数据存在重复或冗余、部分数据属性的缺失或不确定、海最数据和高维度的特点。数据预处理是空间数据挖掘前的数据准备工作,一方面保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。其同的在于把一些与数据分析、挖掘无关的项清除掉,为了给挖掘算法提供更高质量的数据。目前进行的关于数据挖掘的研究工作,大多着眼于数据挖掘算法的探讨,而忽视了对数据预处理的研究。但是一些比较成熟的算法对要处理的数据集合一般都有一定的要求,比如数据的完整性要好、数据的冗余少、属性之间的相关性小。然而,实际系统中的数据一般都具有不完整、冗余性和模糊性,很少能直接满足数据挖掘算法的要求。另外,海量的实际数据中无意义的成分很多,严重影响了数据挖掘算法的执行效率,而且由于其中的噪声干扰还会造成挖掘结果的偏差。因此,对不理想的原始数据进行有效的归纳分析和预处理,已经成为空间数据挖掘系统实现过程中必须面对的问题。目前国内外数据挖掘系统,都侧重于挖掘算法的实现,数据的预处理软件相对较少,功能有限,更没有通用的软件。 1 空间数据挖掘的数据预处理工作流程 1.1 数据集成阶段

数据集成阶段主要以人机交互的方式进行。

1)消除原始高维空间数据结构的不一致,统一其数据结构;2)将数据分为时间型数据、空间型数据和时空混合型数据三类;3)将这三类数据导入数据库,在数据库中分别管理。 1.2 数据清理阶段

对原始数据中的缺失数据、重复数据、异常数据进行处理,提高数据质量。包括三个步骤:1)填补空缺值纪录。以空缺值纪录所在纪录行的前一条纪录的该属性值和后一条纪录的该属性值的平均值来填补该空缺值。2)去除莺复纪录。在数据库中对同类别数据进行对比分析,基于距离的识别算法,即在误差一定的情况下研究两个字符串是否等值。3)异常点检测。在大规模空间数据集中,通常存在着不遵循空间数据模型的普遍行为的样本。这砦样本和其他残余部分数据有很大不问或不一致,叫作异常点(Outlier)。异常点可能是由测量误差造成的,也可能是数据固有的可变性的结果。针对时间序列数据,采取基于移动窗口和标准羞理论的方法实现对异常点的检测;针对空间数据,采取基于移动曲面拟合法的方法实现对异常点的检测;针对多维数据,采取聚类分析法实现埘异常点的检测。经验证,当对检测出来的异常点判定为测餐误差时,剔除后确实能提高数据挖掘算法的效率和准确度。当对检测出来的异常点判定为正常点时,重点分析该点确实能发现其隐含着重要的信息。 1.3 数据转换阶段

数据转换对数据挖掘模犁和输入数据集的要求有较强的依赖,针对不同的数据挖掘模型需要进行不同类型的数据转换。数据转换阶段主要包含两类数据转换工具: 1)数据标准化。

数据标准化包含标准差标准化、极筹标准化和极差正规化。 a.标准差标准化。所谓标准差标准化是将各个纪录值减去纪录值的平均值,再除以纪录值的标准差,即:

其中,xia为平均值,其表达式为:

设Si是标准差,有:

经过标准差标准化处理的所有纪录值的平均值为O,标准差为1。

b.极差标准化。对纪录值进行极差标准化变换是将各个纪录值减去纪录值的平均值,再除以纪录值的极差,即:

经过极差标准化处理后的每个观测值的极筹都等于1。

c.极差正规化。对纪录值进行极差正规化变换是将各个纪录值减去纪录值的极小值,再除以纪录值的极差,即:

经过极差正规化处理后的每个观测值都在0~1之间。 2)数据差值。

针对时间序列数据,采取s(t+1)-s(t)的相对改动来优化s(t+1)。 3)数据比值。

针对时间序列数据,采取s(t+1)/s(t)的相对改动来优化s(t+1)。 1.4 数据约简或分区阶段

数据约简或分区阶段主要包括维度约简、数值约简和数据分区三部分,这三部分在这一阶段的实施不固定先后顺序,相互间不具备依赖性。每个部分在实行前要先从数据库中提取要处理的数据集合。 1)维度约简。对于高维度的空间数据,采用主成分分析法实现对数据集合的众多变镀的约简。 2)数值约简。对于时序数据,采用一种改进的快速傅立叶变换约简方法来实现对时序数据的有效约简。 3)数据分区。数据分区是以时间信息、空间信息为参考轴,不仅实现了对包含时间数据、空间数据、时空混合型数据的大规模数据集的分块,同时避免了空数据块的产生,还能根据数据挖掘模型对输入数据集的要求,分离出目标数据集。 2 工程实例应用

选取江苏省地区(116°18’N~121°57’N,30°45’E~35。°20’E),根据江苏省地震前兆台网的观测信息,选取地震台的数据和江苏省地区的地震目录(见表1)。

表1 前兆数据来源

该工作流程实现了面向空间数据挖掘的数据预处理模块。结合该工程实例验证了:1)上文中提到的毛种异常点检测方法的有效性;2)采用主成分分析法可以实现在对原始数据信息损失小于15%的前提下,对数据集合的有效降维;3)采用此种改进的快速傅立叶变换约简方法,可以在原始信息损失小于5%的情况下,约简后数据量可以不大于原始数据的10%,实现了对时序数据的有效约简。 3 结 语

由于高维空间数据的规模巨大、数据类型和存取方法复杂,所以面向空间数据挖掘的数据预处理是一个很有挑战的课题。本文提出了一种面向空间数据挖掘的数据预处理工作流程,结合具体的工程实例发现,具有一定的推广价值。此外,面向空间数据挖掘的数据预处理是空间数据挖掘众多研究问题之一。其中,针对时空混合型数据的异常点检测来自多个数据源的数据的集成,高维空间数据的可视化等专题还有待进一步的研究。