探索性空间数据分析 - 图文 下载本文

探索性数据分析:直方图

?直方图指对采样数据按一定的分级方案(等间隔分级、标准差分等)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。直方图可以直观的反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值?直方图的一些基本统计量,包括:个数(Count)、最小值(Min)、最大值(Max)、平均值(Mean)、标准差(Std.Dev.)、峰度(Kurtosis)、偏态(Skewness)、1/4分位数(1-stQuartile)、中数(Median)、3/4分位数(3-rdQuartile),通过这些信息可以对数据有个初步的了解。探索性数据分析:直方图

?四分位数(位置的度量):反映了数据的集中趋势(包括平均数、中位数),它们都可以用来表示数据的分布位置和一般水平。–如果将N个数值由小至大排列,第N/4个数就是第一个四分位数,通常以Q1来表示;第2N/4个数就是第二个四分位数(Q2),即中位数;第3N/4个数就是第三个四分位数(Q3)。四分位距即为:Q=Q3-Q1,它将极端的前1/4和后1/4去除,而利用第三个与第一个分位数的差距来表示分散情形,因此避免了极端值的影响。但它需要将数据由小到大排序,且没有利用全部数据。–中位数不受极端数值的影响,如果数据集的分布形状是左右对称的,则中位数等于平均数;当数据集的分布形状呈左偏或右偏,以中位数表示它们的集中趋势比算术平均数更合理。探索性数据分析:直方图

?数据离散程度度量

?平均数、中位数在反映总体一般数量水平的同时,也掩盖了总体中各单位的数量差异。?只有这些统计量还不能充分说明一个数列中数值的分布情况和波动状态。有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,即它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。?代表数据离散程度的统计量包括最大值、最小值、分位数、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。?离散程度越大,数据波动性越大,以小样本数据代表数据总体的可靠性越低;离散程度越小,则数据波动性小,以小样本数据代表数据总体的可靠性越高。探索性数据分析:直方图

统计量离差含义特点及作用平均离差离差平方和恒等于零的缺点,还可以把负数消除,只剩正值,离差表示各数值与其平均值的这样更易于描述离散程度,而且离差平方和得到的结离散程度d?x?xii果较大,使离散程度更明显。离差平方和用于相关分析中求取相关系数xi?x在回归分析中,对回归方程进行显著性检验时,需i要对原始数据进行离差平方和的分解,即把离差平方n和分解为剩余平方和与回归平方和两部分,这两部分离差平方和是把离差求平方,的比值可以反映回归方程的显著性。在趋势面分析中,对于趋势面的拟合程度可以用离然后求和2?xi?x?差平方和来检验,其方法也是将原始数据的离差平方i和分解为剩余平方和与回归平方和两部分,回归平方和的值越大,表明拟合程度越高。??方差标准差它们是表示一组数据对于平均值的离散程度的很重方差是均方差的简称。它是以离差平方和除以变量个数而得要的指标,为了应用上的方便,常对方差进行开方,即为标准差。到的方差和标准差都可应用于相关分析、回归分析、正态分布检验等,还可用于误差分析、评价数据精度、对方差进行开方,即为标准差求取变差系数、偏度系数和峰度系数等。标准差还可用于数据分级。