structure 2.3 - 中文 下载本文

?, ..., ?))中抽样的。有这个更新的基本原理是当?很小时,它可能改进混合,通过使个体在群体之间跳跃更容易。Metropolis-Hastings移动在每次METROFREQ迭代中使用一次。如果METROFREQ被调整到0,则它从未被使用。

REPORTHITRATE (布尔值) 报告q(i)的Metropolis更新的接受速率(见METROFREQ)。

7.4 命令行转换成参数值

为了简化批运行以及使涉及结构的模拟更容易,我们已经增加了命令行标签(flag),更新某些参数的值,覆盖在mainparams里设置的值。这些如下:

-m(mainparams) 读取一个不同的参数输入文件而不是mainparams。 -e(extraparams) 读取一个不同的参数输入文件而不是extraparams。

-s(stratparams) 读取一个不同的参数输入文件而不是stratparams。(供姊妹程序STRAT使用,用于关联作图)

-K(MAXPOPS) 改变群体的数目。 -L(NUMLOCI) 改变位点的数目。 -N(NUMINDS) 改变个体的数目。

-i (输入文件) 从一个不同的输入文件中读取数据。 -o(输出文件) 把结果打印到一个不同的输出文件。

-D(SEED) 使用值SEED初始化随机数的产生。注意使用这个选项时那RANDOMIZE MUST必须被设置为0。)

因此,为了覆盖预设参数值之一,我们调用Structure然后使用相关的标签,继之以的新参数值。标签和新值用空格隔开。标签可以按任意顺序使用。

例如,为了把假定的群体数目改为5,并且把输出指向一个名称为output5的文件,我们可以调用Structure如下: ./structure -K 5 -o output5

8 前端

这个部分提供一些一般的指导,以及关于使用前端的一点建议。一般的主题在上面讨论

了,你可以通过查看第7节得到关于各种参数选项的详细资料。

8.1 下载和安装。

首先,从网页中下载合适的程序文件。对于不同的平台有单独的版本(目前有Windows,Sun,Linux和Mac OS X)。

Windows文件是一个可执行的安装文件。双击图标开始安装。将引导你进行安装。通过双击Structure图标运行程序。

在Unix或者苹果机系统上,把文件放进一个临时文件夹。然后,解压缩该文件(―gzip –dc <文件名> | tar xvf - ‖),这里<文件名>是下载的文件的名字。通过键入―./install‖来运行安装脚本。安装成功以后,将创建一个Structure开始脚本,这个脚本也可以移动到程序的一个标准文件夹中,例如,/usr/local/bin/。为了启动前端,仅仅执行这个开始脚本就可以了。

除了Windows OS,我们不再与Structure软件包一起发布Java虚拟机(从Structure 2.2 版开始)。安装Structure之前需要由Sun Microsystem开发的一种Java运行期环境(Java Runtime Environment,JRE,版本>1.5.0)。与各种操作系统的兼容的JRE可以免费从 http://www.java.com/download下载。在那个网站上可以找到JRE的安装指导。

图1:该例子显示一个项目的组成部分。项目数据(Project Data)是数据文件;项目信息(Project Information)指定数据文件格式。模拟摘要(Simulation Summary)作为这个项目的一部分运行的全部MCMC模拟的摘要。参数集(Parameter Sets)由使用不同的参数设置的3组MCMC运行组成:ps1,ps2,ps3;这些中的每一个显示设置(Settings),以及一个利用这些参数值运行的完成的MCMC的结果的列表。用户可以点击任何这些来查看细节。

8.2 概述

前端把数据分析组织到“项目”里。每个项目连接到一个单个的数据文件。当创建一个项目时,用户也提供信息,确切说明怎样读取数据文件(位点的数目,个体的数目,等等)。 这些是数据文件的特征,并且在这个项目内总是相同的。

每个项目也包含一或更多个“参数集”。这些允许用户指定MCMC运行的细节,包括重复的次数,老化(burnin)长度,等等,也指定分析的模型(例如,是否允许混合,等位基因频率的模型,等等)。然后用户可以在K的选定值上对一个给定的参数集运行Markov链。图1显示了一个称为“popdata”的项目的组成部分的例子。

程序然后可以使用这些参数值被运行。前端储存结果的各种各样的归纳,包括许多图表,在下面描述。

8.3 建立项目

首先你需要建立一个输入文件。这在第2节介绍了。

现在,点击File(文件) ? New Project(新项目)。这打开一个向导来导入数据(图2)。数据被从指定的输入文件复制到为项目选择的工作目录中。

该向导由4个框组成:

1. 指定项目目录,项目名称和输入数据文件(图2)

2. 指定数据文件的基本特性(个体的数目,数据的倍性(对二倍体生物体键入‘2’),

位点的数目,用来表明漏缺数据的值。点击,―Show data file format‖来获得数据文件里的长度和行数的摘要(图3)。

图2:导入数据(第1步)。用户为项目指定目录(这里为数据),项目目录的名字(样本项目;这是在数据内的一个目录),以及要被程序样本数据读取的数据文件。

3. (Rows(行))指定(如果有的话)存在哪些可选的行数据:标记名称行;标记间

距离的行;以及每个体之后的一个连锁相数据行。如果每个个体的数据储存在单个行内,而不是按照标准格式每个个体二行的话,还要点击“single line”。 4. (Columns(列))指定有哪些可选的列数据:个体的身份证明(标签);来源的

群体(POPDATA);USEPOPINFO标签(flag——说明当使用先验的群体信息模型时为某些个体使用POPDATA信息的标签;表现型数据(用于关联作图(Pritchard et al., 2000b));应该被Structure忽略的基因型数据之前的其他额外的数据列。 当你已经完成这些步骤时,你将得到数据格式的一个摘要;如果这看起来是正确的,则点击“proceed”。程序现在将试图加载数据文件并且创建新项目(图4)。