Stata学习笔记 下载本文

644 32 643 23 642 38 641 29 640 38

操作:

先将上面的表格复制,然后进入STATA,执行如下命令 . clear //清空STATA . edit

然后把光标定位在表格的第一行第一列,点右键,选择粘贴(paste),上表数 据便被复制到STATA 中,退出数据编辑器

sum score //思考:得到的结果是640 分及以上考生的平均分吗? 简单地使用sum 命令得到的平均成绩显然是不正确的,因为各个分数下的人数是

不一样的,正确的计算需要加权,加权的办法是

. sum score [weight=num] / *加权计算,比较该结果与sum score 的区别,

实际上,不用权重选项时,相当于权重相等。*/

. sum score [w=n] //w 为weight 的略写,n 为num 的简写,两命令等价

2.9 其他可选项,options

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]

许多命令都有一些可选项

例如,我们不仅要计算平均成绩,还想知道成绩

的中值,方差,偏度和峰度等*/

. sum score, detail

. sum score, d //d 为detail 的略写,两个命令完

全等价

注意,结果中显示了 1%,5%等分位数,意思

是把变量从小到大排序,第1%位置

处的取值是多少,第10%的位置上的取值是多

少。显然,50%位置处的取值是中

位数。此外,加了detail 选项后,还得到最小的

前5 个数,最大的5 个数,以

及峰度和偏度等。

*再如,list 命令也有一些可选项 . cd d:/stata9 . use auto, clear

. list price in 1/30, sep(10) //每10 个

观察值之间加一横线

. list price in 10/30, sep(2) //每2 个

观察值之间加一横线

. list price, nohead //不要表

Chapter3 数据

3.1 打开示例数据和网络数据:use

3.1.1 示例数据

示例数据为STATA 帮助文件中所用的数据,其后辍名为.dta,如果在STATA 软件当前路径下,直接用use 命令即可打开;如果不在当前路径下,则可以使用 sysuse 命令打开。

. use auto,clear //打开汽车数据auto.dta . cd d:/ //改变路径到d:/ . use auto, clear

file auto.dta not found //系统提示无法找到文件,因为auto.dta 不在d:/ r(601);

. sysuse auto,clear //无论当前路径是什么,该命令均能打开系统自带文件 3.1.2 从网络获取数据

上述示例数据可能没有全部下载到你的所用的电脑中,因此简单地使用use 和sysuse 命令时,可能出现错误,如 . use nlswork, clear

file nlswork.dta not found

此时,如果确定该数据为示例数据,可以直接通过网络获取,其命令为: . use http://www.stata-press.com/data/r9/nlswork //从网站获取数据,或者 . webuse nlswork, clear //与前一命令等价,从STATA 官方数据库获取数

webuse只能从http://www.stata-press.com/data这一路径获取数据,如果不是 该网站的数据,webuse失效,只能把网站地址完全写出来。使用该命令时必须确

保网络连接正常.

另一个网络数据较多的地方是波士登大学的数据中心,伍德里奇的《计量经 济学导论》一书中所使用的全部数据都可以通过该数据中心获得。比如 . use

http://fmwww.bc.edu/ec-p/data/wooldridge/CEOSAL1

即打开教材中例2.3 中所使用的CEO 数据。 use 命令只能打开后辍名为“*.dta”格式的数据,.dta 格式以外的数据,STATA 不能直接读取,需要从外部读入,最简单而直接的办法是复制和粘贴。但是有时

没有其他软件,比如,我们有SAS 格式或SPSS 格式的数据,但没有SAS 软件 和SPSS 软件,此时需要用STATA 提供的其他命令或者使用transfer 数据格式转

化软件。在讨论其他输入或导入数据的方法之前,我们先来学习一点数据类型的

知识。

3.2 数据类型

STATA 通常把变量划分为三类:分别是数值型,字符型和日期型

3.2.1 数值变量:

用0、1、2…9 及+、–(正负号)与小数点“(.)”来表示。在输入数据时, 逗号不能被识别,如1,024 应该直接写成1024. 5 -5 5.2 5.2e+3 5.2e-2

后面两个数据为科学计数法的数据,分别表示5200 和0.052.其中的e 相当 于10,因此5.2e+3 的意思是:5.2*103=5200

数值型变量按其精度区分,又有五种类型,分别是:

存贮类型 最小 最大 0-领域 字节