探索性空间数据分析 - 图文

探索性数据分析

?与探索性分析有关的技术主要有:–数据可视化技术?单变量可视化––––––––直方图箱线图Voronoi图方差变异分析工具散点图平行坐标图QQPlot分布图方差变异分析工具?多变量可视化–图形交互式技术探索性数据分析:箱线图

?箱线图就是数据分布特征直观简洁的表示方法。箱线图与描述统计中的五数概括(最小值、下四分位数、中位数、上四分位数、最大值)密切相关,这些数值给出集中性、分散性、极端数据的分布情况。?1.中位数、分位数

–设某地理数据集中某一变量的n个记录为:xl,x2,…,xn–数据的数值从小到大排列为:x(1), x(2),…,x(n)–则最小值和最大值分别为探索性数据分析:箱线图

?中位数(media,简写为M) 是从小到大排列的数据列中位于中间位置的数,用公式表示为:?中位数在统计上有着良好的性质:–以中位数为界将数据为两部分,其中大于和小于中位数的数据各占50%;–如果数据的分布是对称的,则中位数和均值、众数是一致的;–中位数更为显著的特性是它具有均值所不具有的稳健性,即不受或很少受异常值(最大值或最小值)的影响,因为中位数虽然表现为数值,但是其本质是数据排序的位置,虽然极大或极小数值的出现对于均值产生影响,但是很少影响排序的位置。–中位数是一个重要的统计量,别是在探索性数据分析和建模中。探索性数据分析:箱线图

?极差(range,简写为R)是一个描述数据分散性的统计量:?分位数(quantile)是另一种利用数据的位序描述数据特征的统计量。设p是介于0到1之间的一个数值,有0≤p≤1,有n个位序统计量,则p分位数定义为?[np]表示n×p的整数部分,x的下标是数据位序上的位置,x(np)表示该位序位置上的数值。最常用的分位数是p=0.75和p=0.25,记为Q3、Ql,其含义是小于Q3和Ql的数据的个数分别占数据总数的75%和25%。又分别称为上、下四分位数。

联系客服:779662525#qq.com(#替换为@)