structure 2.3 - 中文

Structure 2.3使用手册

Jonathan K. Pritcharda Xiaoquan Wena Daniel Falushb 1 2 3

a

芝加哥大学人类遗传学系

b

牛津大学统计学系

软件来自

http://pritch.bsd.uchicago.edu/structure.html

2010年2月2日

1

我们在Structure项目中的其他的同事有Peter Donnelly、Matthew Stephens和Melissa

Hubisz。

23

开发这个程序的第一版时作者(JP、MS、PD)在牛津大学统计系。

关于Structure的讨论和问题请发给在线的论坛上:

structure-software@googlegroups.com。 在邮递问题之前请查对这个文档并搜索以前的讨论。

1 引言

程序Structure使用由不连锁的标记组成的基因型数据实施基于模型的聚类方法来推断群体结构。这种方法由普里查德(Pritchard)、斯蒂芬斯(Stephens)和唐纳利(Donnelly)(2000a)在一篇文章中引入,由Falush、斯蒂芬斯(Stephens)和普里查德(Pritchard)(2003a,2007)在续篇中进行了扩展。我们的方法的应用包括证明群体结构的存在,鉴定不同的遗传群体,把个体归到群体,以及鉴定移居者和掺和的个体。

简言之,我们假定有K个群体(这里K可能是未知的)的一个模型,每个群体在每个位点上由一组等位基因频率来刻画。样本内的个体被(按照概率)分配到群体,或共同分配到两个或更多个群体,如果它们的基因型表明它们是混和的。假定在群体内,位点处于哈迪-温伯格平衡和连锁平衡。不精确地讲,个体被按达到这一点那样的方法指定到群体。

我们的模型不假定一个特别的突变过程,并且它可以应用于大多数通常使用的遗传标记,包括微卫星(microsatellites)、SNP和RFLP。模型假定在亚群体内标记不处于连锁不平衡(LD),因此我们不能处理极其靠近的标记。从2.0版开始,我们现在能够处理弱连锁的标记。

虽然这里实现的计算方法是相当强有力的,但是为了保证明智的答案,在运行程序的过程中还是需要谨慎。例如,不可能从理论上确定合适的运行长度(时间),这需要用户自己做一些实验。这份资料描述软件的使用和解释,并补充发表的文章,这些文章提供了对方法的更正式的描述和评价。

1.1 概述

软件包Structure由几个部分组成。程序的计算部分用C语言编写。我们发布源码和用于各种平台(目前有苹果机,Windows,Linux,Sun)的可执行文件。C可执行文件读取用户提供的一个数据文件。还有一个Java前端为用户提供各种有帮助的工具,包括对输出的简单的处理。你也可以从命令行调用Structure而不是使用前端。

这份资料包括关于怎样格式化数据文件、怎样选择合适的模型、以及怎样解释结果的信息。它也有关于使用两种界面(命令行和前端)的细节以及各种用户定义的参数的汇总。

1.2 在2.3版中有哪些更新?

2.3版(2009年4月发布)引入了新的模型用于改进数据集结构的推论,其中(1)数据对于通常的结构模型来说信息不够,不足以提供准确的推论,但是(2)抽样的地点与群体归属关系(population membership)相关。在这种情形下,通过明确利用抽样地点信息,我们使结构得到改善,经常允许性能提高很多(Hubisz et al., 2009)。我们希望在下几个月释放更进一步的改进。

表1:实例数据文件。这里MARKERNAMES = 1, LABEL = 1, POPDATA = 1, NUMINDS = 7, NUMLOCI = 5, MISSI

>>灞曞紑鍏ㄦ枃<<
12@gma联系客服:779662525#qq.com(#替换为@)