structure 2.3 - 中文

数(?, ?, ..., ?)的Dirichlet。小的?暗示大多数个体基本上来自一个群体或者另一个群体，而?>1 暗示大多数个体被混和。）

POPALPHAS (布尔值) 为每个群体推断一个单独的?。多数情况下不推荐，但是对于具有

非对称混合的情况可能是有用的。

ALPHA (双精度) 混合程度的Dirichlet参数（?）（如果INFERALPHA ==1，这个就是初始

值）。

INFERLAMBDA (布尔值) 为?推断一个适当的值。不为大多数分析推荐。 POPSPECIFICLAMBDA (布尔值) 为每个群体推断一个单独的?。

LAMBDA (双精度) 参数化等位基因频率的先验，对于大多数数据默认值1好像工作得相当

好。如果大多数标记上的频率严重向低/高频率偏斜，更小的?值可能导致潜在更好的表现。它好像对估计?没有对其它超参数（?和F）的估计那么好。

先验

这些值用来参数化假定的概率模型。多数情况下缺省设置应该相当明智，你可能不想要担心这些。

FPRIORMEAN，FPRIORSD (双精度) 见FREQSCORR。Fk的先验被取具有平均数

FPRIORMEAN和标准偏差FPRIORSD的γ。我们的缺省设置将许多权重放于F的小值上。我们发现这使得算法对细微的结构敏感，但是增加了过高估计K的风险（Falush et al., 2003a）。

UNIFPRIORALPHA (布尔值) ，ALPHAMAX (双精度) 对?假设一个均匀分布的先验，运

行在0和ALPHAMAX之间。这个模型好像工作很好；其它的模型（当UNIFPRIORALPHA = 0时）是取?作为具有γ分布的先验，具有平均数ALPHAPRIORA×ALPHAPRIORB，方差ALPHAPRIORA×ALPHAPRIORB2。

LOG10RMIN，LOG10RMAX，LOG10PROPSD，LOG10RSTART (双精度) 当连锁模型

被使用时，切换速率r被取为在对数尺度上具有一个均匀的先验，在LOG10RMIN和LOG10RMAX之间。这些值需要由用户确定，以便就被使用的图距单位的尺度而言有意义。

使用先验的群体信息（USEPOPINFO）

GENSBACK (整数) 这对应于G（Pritchard et al., 2000a）。当对个体使用先验的群体信息

（USEPOPINFO = 1）时，程序测试是否每个体在最后G代有一个移民祖先，其中G = 0对应于个体本身作为一个移民。为了有适当的功效，G应该被设置得相当小（比如2），除非数据的信息非常丰富。

MIGRPRIOR (双精度) 必须是在[0，1]中。这是Pritchard等(2000a)中的v。明智的值可能在

0.001—0.1的范围内。

PFROMPOPFLAGONLY (布尔值) 这个选项是2.0版新有的，使仅仅使用预先指定的个体

的子集来更新等位基因频率P成为可能。为了使用这个选项，包括一个POPFLAG列，对应该用来更新P的个体设置POPFLAG=1，对不应该用来更新P的个体的设置POPFLAG = 0。USEPOPINFO打开或者不打开，都可以使用这个选项。

这个选项将是有用的，例如，如果你有来自已知群体的一组准参考个体，然后你想要估计一些未知的个体的祖先。使用这个选项，每个未知个体的q估计值只依赖于参考个体组，而不依赖于样本中的其它未知个体。这个特点有时是合乎需要的。

使用地点信息的LOCPRIOR模型

LOCISPOP (布尔值) 当LOCPRIOR模型打开时，这个选项指导程序使用输入文件中的

PopData列作为地点数据。当LOCISPOP = 0时，程序需要一个LocData列来使用LOCPRIOR。

LOCPRIORINIT (双精度) LOCPRIOR参数r的初始值，确定群体的信息有多丰富

（citepHubiszEtAl09）。我们发现LOCPRIORINIT = 1有助于取得好的收敛。

MAXLOCPRIOR (双精度) r的范围是来自（0，MAXLOCPRIOR）。我们建议

MAXLOCPRIOR = 20。

输出选项

PRINTNET (布尔值) 打印聚类之间的“净核苷酸距离”。群体A和B之间的这个距离DAB

被计算为

DA,B1L?Jl(l)(l)?(HA?HB)?A,jp?B,j??，（5） ???1??pLl?1?j?12?(l)?x其中p,j是群体x中位点l上的等位基因j的等位基因频率的后验平均估计，L是位点的数目，

Jl是位点l上的等位基因的数目，其中

1L?Jl(l)2??x,j?，（6） Hx???1??pLl?1?j?1?净核苷酸距离是分别来自群体A和B的一对等位基因不同的平均概率，小于群体内平均杂合性。或许更直觉地，这可以被认为是来自不同群体的等位基因之间成对差异的平均数量，超出每个群体内存在的变异的数量。该距离有合适的特性，即相似的群体之间的距离接近0，并且尤其，DAA = 0。注意到距离是对称的，以至于DAB = DBA。这个距离适于画群体的树来帮助直观化聚类之间的差异的水平（Falush et al., 2003b）。 PRINTKLD (布尔值) [不赞成]这个选项不再可用。 PRINTLAMBDA (布尔值) 打印?的当前到屏幕。

PRINTQSUM (布尔值) 打印当前的Q估计的摘要到屏幕；这打印PopData的每个值的平均数。

SITEBYSITE (布尔值) （连锁模型）为数据里的每种基因型打印分派概率的完整的摘要。这被打印到一个单独的文件，具有后缀―ss‖。这个文件可能是大的！

PRINTQHAT (布尔值) 当这个被打开时，Q的点估计不仅被打印到主要的结果文件，而且被打印到一个单独的后缀为―q‖的文件。为了运行姊妹程序STRAT，需要这个文件。 UPDATEFREQ (整数) 对屏幕打印更新的频率。如果这= 0则自动设置。 PRINTLIKES (布尔值) 在每个迭代过程中把似然函数的当前值打印到屏幕。

INTERMEDSAVE (整数) 如果你渴望在运行结束之前看见初步的结果，你可以让程序在MCMC运行期间每隔一段时间将结果打印到文件。总共打印INTERMEDSAVE个这样的文件，在继BURNIN的完成之后相等的间隔。通过设置为0关掉这个选项。使用OUTFILE名字创造的这些文件的名字。

ECHODATA (布尔值) 把数据集的概要打印到屏幕和输出文件。（打印输入文件最顶行和最底行的开头和结尾，以便允许用户检查它已经被正确地读取。）

ANCESTDIST (布尔值) 收集关于每个体的Q的分布的信息，也只估计平均值。当这被打开时，输出文件包括每个q(i)的概率区间的左端和右端。（概率区间是置信区间的贝叶斯类似

物。）打印的值显示概率区间的中间100p%，其中p是0.0到1.0的范围内的一个数字，用ANCESTPINT设置。Q的分布通过记录在0和1之间的许多箱子的每一个点击（hit）的数目被估计，以便形成某种直方图。这些箱子的宽度一样大小，是使用NUMBOXES确定的。

杂项

COMPUTEPROB (布尔值) 在每次更新时打印数据的对数似然，并估计给定K和模型的数

据的概率（参阅第5节）。这被用于估计K，并且对于burnin（老化？）是否足够长也是一个有用的诊断。关掉这个选项的主要原因将是加速程序（~ 10–15%）。

ADMBURNIN (整数) （当RECOMBINE=1时使用）当使用连锁模型时，在大多数情形下

强烈推荐利用混合物模型的短的burnin（比方说500次迭代）。没有这样的burnin，连锁模型经常生产独特的结果。设置ADMBURNIN

ALPHAPROPSD (双精度) ?的Metropolis-Hastings更新步骤涉及从一个具有平均数#和标

准差ALPHAPROPSD>0的正态分布中挑选一个值??。ALPHAPROPSD的值不影响Markov链的渐近的行为，但是可能对收敛的速率具有显著的影响。如果有许多关于?的信息，则小的ALPHAPROPSD值对于获得合理的接受速率更可取。如果没有很多关于#的信息，则更大的值产生更好的混合。

STARTATPOPINFO (布尔值) 使用给定的群体作为群体起源的起始条件。（需要

POPDATA==1）。这个选项提供Markov链正在正确地收敛的一个检查，如果你期望推断的结构与输入标签相配，而它没有。这个选项假定输入文件里的PopData在1和k之间，其中k ? MAXPOPS。PopData不在这个范围内的个体随机起始。

RANDOMIZE (布尔值) 为每次运行使用一个不同的随机数种子，取自系统时钟。（也见

SEED）

SEED（整数）如果RANDOMIZE==0，则模拟种子被预置为SEED。这允许运行被准确地

重复。如果RANDOMIZE==1，则在SEED里指定的任何值被忽略。注意即使当RANDOMIZE==1时，注意那个==1，程序输出仍然表明开始的种子值，这样的话，如果需要，可以重复特定的运行。

METROFREQ (整数) 在混合物模型下使用Metropolis-Hastings步骤来更新Q的频率。当这

个选项被使用时，为每个q(i)选择一个新的提议值q(i)?。这个提议值是从先验（即q(i)? ~ D(?,

structure 2.3 - 中文

下载：structure 2.3 - 中文.doc

最近浏览

最新搜索

站内搜索