了解六西格玛中的统计分布 下载本文

了解六西格玛中的统计分布

摘要: 许多顾问会做假设的测试模板来决定进行何种类型的测试。无论如何要考虑所取得的数据的类型。如果仅有总结性的数据,如何应用它来得到结论?原始数据最能反映事情的状况,但是它可能不直观,那就仍然需要进行测试 ...

为演绎数据,顾问需要了解分布。本文讨论了如何了解统计分布的不同类型、不同分布的应用以及给出一个已知分布的假设。

-许多顾问会做假设的测试模板来决定进行何种类型的测试。无论如何要考虑所取得的数据的类型。如果仅有总结性的数据,如何应用它来得到结论?原始数据最能反映事情的状况,但是它可能不直观,那就仍然需要进行测试。

为了不仅是看到数据,还要演绎它,顾问需要了解分布。本文讨论了以下几点:

l 了解统计分布的不同类型。 l 了解不同分布的应用。 l 给出一个已知分布的假设。 l

六西格玛绿带的培训集中在图形、中心和宽度。图形的概念受限于连续数据的正态分布。本文会通过分布所表现出来的(包括总体和样本)而在图形概念上进行延展。

回到基本原理

建立在一个假设模型基础上,用概率,陈述估计必然事件发生的机会。对于数据统计学说,观察数据习惯上确定一个描述这个数据的模型。该模型与数据的分布有关。统计是从样本推断到总体,而概率是从总体到样本。

推断性统计是基于样本数据描述总体参数的一门科学。推断性统计可以应用于: l 确定过程能力(确定百万分缺陷数)。

l 利用分布来估计给出已知参数的变量事件的发生概率。 推断性统计基于正态分布。

Figure 1: Normal Curve and Probability Areas

图1:正态曲线和概率面积

正态曲线分布可以扩展获得其它分布。结合收集到的数据类型在对过程策划和分布离差或图形理解的基础上指定恰当的分布。它可以帮助我们得到最好的分析结果。

分布的类型

分布的分类与数据分类相同-连续和离散:

l 连续概率分布是随机变量相关的概率,在一个区间内可以取无限多个数值即为随机变量。

l 离散概率分布列出一个实验所有可能的结果和它们各自发生的概率。

分布描述

概率质量函数(pmf)-对于离散变量来说,pmf是随机变量取值x的概率。 概率密度函数(pdf)-对连续变量来说,pdf是取值为x的随机变量在两点之间总体分布概率。

在通常意义上来说,人们在一个连续整体中无法给出一个特定x的概率,而是一些特定(很小)的范围。补充一下,可以想象成x+Dx, Dx很小。

Pdf的符号是f(x)。对于离散分布: f(x) = P(X = x)

自从用于评估离散质量的概率开始,有些人把离散分布归类到概率质量函数。对于连续分布来说,无法建立一个点的概率质量函数。 累积密度函数(cdf)-变量取值小于等于x的概率。

Figure 2: Normal Distribution Cdf

图2:正态分布Cdf

总平均

Cdf最大值是1,因为没有大于1的概率。再次,cdf是F(x) = P(X < x)。适应于连续和离散分布。

参数

参数是总体分布。顾问依靠参数来描述分布的特征。下面有三个参数: l 位置参数-变量范围(考虑到平均)的下限或中心(分布规定的) l 比例参数-决定x(x轴比例的大小)的测量比例尺(考虑到标准偏差) l 图形参数-画出一组图形中的pdf的图形。

不是所有的分布都有所有的参数。例如,正态分布参数只有平均值和标准偏差。描述一个正态总体仅需要这两个参数。

分布概述

本文剩下的部分将会主要概述各种图形,基本假设和分布的应用。记住每个分布都有不同的pdf 和不同的分布参数。 正态分布(高斯分布)

Figure 3: Normal Distribution Shape

基本假设

l 关于平均值的对称分布(钟形曲线)。 l 通常用于推断性统计。

l 用m和s来表征的一组分布。

用途包括:

l 独立事件随时间变化以一个固定比率发生的概率评估分布。 l 平均值与泊松分布相反。

l 图形可以表征不合格率(在函数习惯用法上是常数)。 l 指数分布

Figure 4:Exponential Distribution Shape

图4:指数分布图形