你可能发现基于净核苷酸距离画出树来表示聚类之间的距离是有帮助的。例子被显示在Falush等(2003b)中。
9.5 估计的等位基因频率(P)的打印资料
Locus 5
3 alleles 19.0% missing data 2 0.511 0.821 0.656 3 0.444 0.171 0.317 1 0.045 0.008 0.027
这个例子显示了位点5上估计的等位基因频率(P)的打印资料。列2、3和4显示在列1中列出的等位基因估计的频率(分别在聚类1、2和3中)。
9.6 连锁模型的位点接位点输出
当SITEBYSITE选项被选择时,有单独的输出文件,具有后缀“_ss”,包含每个个体在每个位点上的每个等位基因拷贝的来源分派的后验群体。对大的数据集来说,这个文件可能有好几兆。
每一行显示一个个体的一个位点的分派概率(assignment probability)。该行的前两列注明个体的数目(从1到NUMINDS)和位点的数目(分布在从1到NUMLOCI的范围内),按照它们在数据文件里出现的次序。
后验分派概率的格式取决于参数组合。如果LINKAGE=0或者PHASED=1,那么输出的前面K行给出这个位点上的第一个等位基因拷贝来自群体1…K的概率。对于二倍体或者多倍体数据,随后的等位基因拷贝的类似的概率在另外的列内显示。
如果使用连锁模型(LINKAGE=1)并且数据没被完全确定连锁相(PHASED=0),则每个位点上的等位基因拷贝的后验分派概率可能是强烈相互依赖的(co-dependent)。Structure因此输出二个等位基因拷贝的联合分派概率,意味着每个位点有K2个条目(注意这个选项对PLOIDY? 2无效)。
如果MARKOVPHASE = 1,则前面K列给出数据文件中的第一个等位基因拷贝在群体1中、第2个等位基因拷贝在群体1…K中的概率,随后的列与群体2…K中的第一个等位基因拷
贝的概率相关。如果MARKOVPHASE = 0,则不是指到数据文件中的第1和第2个列举的等位基因拷贝,概率指的是母亲和父亲链(strand)的起源的群体。如果没有连锁相的信息(PHASEINFO = 0),则后验概率基体理论上应该是对称的,因此母亲的等位基因在群体k1中而父亲的等位基因在k2中的概率将等于母亲的等位基因在群体k2而父亲的等位基因在群体k1中的概率。实际上,因为用MCMC来估计该矩阵,如果NUMREPS是小的,将有显著的与对称性的不符合。
例如,假定下面是一个没有连锁相信息的二倍体个体的两个位点的位点接位点(site-by-site)输出,具有MARKOVPHASE = 0。
1 1 0.001 0.000 0.008 0.000 0.000
0.001 0.007 0.001 0.982
1 2 0.001 0.000 0.008 0.000 0.000
0.001 0.008 0.001 0.982
然后为了计算第一个位点上的母亲和父亲等位基因拷贝的分派概率,数字被累加如下:
locus 1
pop1
pop2
pop3
origin of maternal(X)
chromosome
pop1 pop2 pop3
0.001 0.000 0.008 0.000 0.000 0.001 0.008 0.000 0.982
0.009 0.001 0.990
origin of paternal 0.009 0.000 0.991 chromosome (missing)
在这个例子中,数据来自一个雄性的X染色体,因此实际上第2个等位基因拷贝是缺失的。
注意该格式被从2.1版本简化,在那里结果被放在与其余输出相同的文件里。标签和标记名字不再被打印,输出用小数形式而不是科学计数法打印每个数字。这些变化是为了紧凑。
10 供Structure使用的其他资源
10.1 Structure结果的绘图
CLUMPP和distruct是诺厄·罗森堡(Noah Rosenberg)的实验室为制作Q矩阵的好的图编制的两个程序。前端生产相似的图,但是这两个程序提供对图表输出的很多更精细的控制。见
http://rosenberglab.bioinformatics.med.umich.edu/software.html
10.2 将细菌的MLST数据导入Structure格式
由Xavier Didelot和Daniel Falush开发的软件xfma2struct按照扩展的Fasta格式提取单倍体序列数据,并且把它们转变成Structure格式。见ClonalFrame网站:
http://bacteria.stats.ox.ac.uk/
11 怎样引用这个程序
对基本方法的合适的引用是Pritchard et al. (2000a)。Falush等(2003a)的文章是在2.0版中实现的连锁模型和相关等位基因频率模型的合适的参考文献。含糊的基因型数据,例如显性标记(2.2版新增)的方法由Falush等(2007)描述。小数据集的信息性先验的模型(2.3版新增)由Hubisz等(2009)描述。
12 书目
参考文献
Beaumont, M., Gottelli, D., Barratt, E. M., Kitchener, A. C., Daniels, M. J., Pritchard, J. K., and
Bruford, M. W. (2001). Genetic diversity and introgression in the Scottish wildcat. Molecular
Ecology, 10:319–336.
Conrad, D., Jakobsson, M., Coop, G., Wen, X., Wall, J., Rosenberg, N., and Pritchard, J. (2006).
A worldwide survey of haplotype variation and linkage disequilibrium in the human genome. Nature Genetics, 38:1251–1260.
Evanno, G., Regnaut, S., and Goudet, J. (2005). Detecting the number of clusters of individuals
using the software STRUCTURE: a simulation study. Mol. Ecol., 14:2611–2620.
Falush, D., Stephens, M., and Pritchard, J. K. (2003a). Inference of population structure:
Extensions to linked loci and correlated allele frequencies. Genetics, 164:1567–1587. Falush, D., Stephens, M., and Pritchard, J. K. (2007). Inference of population structure using
multilocus genotype data: dominant markers and null alleles. Molecular Ecology Notes, 7:574–578.
Falush, D., Wirth, T., Linz, B., Pritchard, J. K., Stephens, M., and 13 others (2003b). Traces of
human migrations in Helicobacter pylori populations. Science, 299:1582–1585.
Harter, A., Gardner, K., Falush, D., Lentz, D., Bye, R., and Rieseberg, L. (2004). Origin of extant
domesticated sunflowers in eastern North America. Nature, 430:201–205.
Hubisz, M., Falush, D., Stephens, M., and Pritchard, J. (2009). Inferring weak population structure
with the assistance of sample group information. Molecular Ecology Resources, In Press. Murgia, C., Pritchard, J. K., Kim, S., Fassati, A., andWeiss., R. (2006). Clonal origin and
evolution of a transmissible cancer. Cell, 126:477–487.
Pritchard, J. K., Stephens, M., and Donnelly, P. (2000a). Inference of population structure using
multilocus genotype data. Genetics, 155:945–959.
Pritchard, J. K., Stephens, M., Rosenberg, N. A., and Donnelly, P. (2000b). Association mapping
in structured populations. Am. J. Hum. Genet., 67:170–181.
Rosenberg, N. A., Burke, T., Elo, K., Feldman, M. W., Freidlin, P. J., Groenen, M. A., Hillel, J.,
Maki-Tanila, A., Tixier-Boichard, M., Vignal, A., Wimmers, K., and Weigend, S. (2001). Empirical evaluation of genetic clustering methods using multilocus genotypes from 20 chicken breeds. Genetics, 159:699–713.