SAS统计(网) 下载本文

TABLES 请求式/[选项]; WEIGHT <变量名>; BY <变量名列>; 必需,指定行变量和列变量 指定频数指定变量 如:PROC FREQ; TABLES A;

产生变量A的一维频数表。 PROC FREQ; TABLES A*B;

产生A、B两个变量的列联表,*前为行变量,*后为列变量。

在TABLES语句中用*号连接三个或n个变量名,可得到三维或n维列联表,最后一个变量各水平形成表的列,倒数第二个变量各水平形成表的行,其它变量的每一级水平(或水平组合)形成一层,且每一层都形成分离的列联表。 如:PROC FREQ; TABLES A*B*C*D;

列联表的数量为A、B不同水平的组合数,每个表的上部为D的各水平,左侧为C的各水平。 6.2.2 语法说明 【程序步选项】

? ? ? ? ?

DATA=数据集 规定PROC FREQ语句使用的数据集 ORDER=FREQ 按频数递减顺序排列 ORDER=DATA 按数据集中出现的顺序排列 ORDER=INTERNAL 按内部值排列(缺省) ORDER=FORMATTED 按外部格式值排列

【TABLES语句】

29

PROC FREQ过程中可有多条TABLES语句,TABLES语句后可接多个表格请求式,每个请求式可包含任何数量的变量,从而得到所需的表格。

如果TABLES语句缺省,则FREQ过程对数据集中的所有变量都给出相应的一维频数表。不规定任何选项时,若需某变量的一维频数,FREQ给出该变量每一水平的频数(freqency)、累积频数(cumulative freqency)、频数的百分比(percent)和累积百分比(cumulative percent);若需二维频数表,FREQ产生交叉分组列表,即包括各格的频数、总频数的格百分数、行频数的格百分数和列频数的格百分数。

请求式由一个或多个用“*”连接起来的变量名组成。几个变量可放在括号中,如:

TABLES A*(B C);等价于TABLES A*B A*C; TABLES (A-C)*D;等价于TABLES A*D B*D C*D; 下列选项可用于TABLES语句中“/”的后面:

1. 普通选项

?

OUT=数据集 建立一个包含变量值和频数计数的输出数据集。如果TABLES语句中不止一个请求式,数据集的内容相应于TABLES语句中最后一个请求。

2. 统计分析选项

?

CHISQ 对每层作c 检验,包括Pearson c 、似然比c 和Mantel-Haenszel c 。此外还给出与c 检验有关的关联指标包括Phi系数、列联系数和Cramer’s V。对于2×2表,给出Fisher精确概率。

2

2222

? ? ?

AGREE 进行配对c 检验。

EXACT 对大于2×2的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。

MEASURES 对每层的二维表计算一系列关联指标及相应的标准误,包括Pearson和Spearman相关系数,以及Gamma和Kendall系数等。对于2×2表,还给出常用的危险度指标及其标准误。

2

? CMH 给出Cochran-Mantel-Haenszel统计量,可检验在调整了TABLES语句中其它变量后,行变量与列变量之间的关联程度。对于2×2表,FREQ过程给出相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的Breslow检验。

? ?

ALL 给出CHISQ、MEASURES、CMH所请求的全部统计量。 ALPHA=p 给出检验水准。缺省为0.05。

30

3. 有关表格信息选项

? ? ? ?

EXPECTED 给出期望频数

DEVIATION 给出每格的实际频数与期望频数的差值

CELLCHISQ 给出每格对总c 的贡献,即计算每格的(实际频数-期望频数)/期望频数。

CUMCOL 给出累积列百分数

2

2

4. 禁止输出选项

? ? ? ? ? ?

NOFREQ 不给出列联表中的格频数 NOPERCENT 不给出列联表中的格百分数 NOROW 不给出列联表中各格的行百分数 NOCOL 不给出列联表中各格的列百分数 NOCUM 不给出频数表的累积频数和累积百分数

NOPRINT 不给出表格,但给出CHISQ、MEASURES或CMH等语句所指定的统计量。

【WEIGHT语句】

通常每个观察值提供数值1给频数计数,当WEIGHT语句出现时,每个观察值提供的是该观察值的加权变量值。该值必须非负,但可不必为整数。只能使用一个WEIGHT语句,且该语句作用于所有的表。 6.2.3 结果解释

当TABLES语句不带任何选项时,FREQ过程只输出N维频数表,只有在选项中指定统计方法后才输出相应的检验结果。下面以本章例8.1的输出为例,解释FREQ过程的结果。

TABLE OF ROW BY COLUMN

每个单元格给出以下结果:ROW为行变量,COLUMN为列变量

频数,指格频数 百分数 行百分数 列百分数

ROW COLUMN Frequency|

Percent | 百分数即指该格频数占总频数的百分比 Row Pct | 指该格频数占该行总频数的百分比

Col Pct | 1| 2 | Total 行变量的不同取值及合计 ---------+-------+-------+

列 变

1 | 54 | 8 | 62 | 42.86 | 6.35 | 49.21

31

量 的 不 同 取 值 及 合 计

| 87.10 | 12.90 | | 55.10 | 28.57 | ---------+-------+-------+ 2 | 44 | 20 | 64 | 34.92 | 15.87 | 50.79 | 68.75 | 31.25 | | 44.90 | 71.43 | ---------+-------+-------+ Total 98 28 126 77.78 22.22 100.00 STATISTICS FOR TABLE OF ROW BY COLUMN

Statistic DF Value Prob ------------------------------------------------------ Pearson c Chi-Square 1 6.133 0.013 似然比c Likelihood Ratio Chi-Square 1 6.304 0.012 cM-H Continuity Adj. Chi-Square 1 5.118 0.024 Mantel-Haenszel Chi-Square 1 6.084 0.014 Fisher's Exact Test (Left) 0.997 (Right) 0.011 (2-Tail) 0.018 Phi Coefficient 0.221 Contingency Coefficient 0.215 Cramer's V 0.221 Sample Size = 126 样本例数为126

2

2

2

以上统计结果的最后三行为三个系数,三项均无P值,只给出具体的统计量值。它们都是用于刻划行变量、列变量两个分类变量之间关联强度的描述性统计量。

给大家讲件真事,也是笑话,如果你笑得出来。有位同学做课题,考虑到统计不太熟,就找另一位研究生(当然不是统计专业的)来帮他。这位朋友用FREQ

2过程得出c 检验结果,同学看了直犯愁,便问道:“这么多P值,用哪个呀?”

朋友反问:“你是想有差别还是无差别?”他回答:“当然是有差别喽。”答曰:“那就用P值最小的那个!”

6.2.4 应用实例

例6.2 某地测得6094人的血型结果如下,问ABO血型与MN血型有无关联?(医学统计学第二版P.197 2.11题)

32