structure 2.3 - 中文 下载本文

数(?, ?, ..., ?)的Dirichlet。小的?暗示大多数个体基本上来自一个群体或者另一个群体,而?>1 暗示大多数个体被混和。)

POPALPHAS (布尔值) 为每个群体推断一个单独的?。多数情况下不推荐,但是对于具有

非对称混合的情况可能是有用的。

ALPHA (双精度) 混合程度的Dirichlet参数(?)(如果INFERALPHA ==1,这个就是初始

值)。

INFERLAMBDA (布尔值) 为?推断一个适当的值。不为大多数分析推荐。 POPSPECIFICLAMBDA (布尔值) 为每个群体推断一个单独的?。

LAMBDA (双精度) 参数化等位基因频率的先验,对于大多数数据默认值1好像工作得相当

好。如果大多数标记上的频率严重向低/高频率偏斜,更小的?值可能导致潜在更好的表现。它好像对估计?没有对其它超参数(?和F)的估计那么好。

先验

这些值用来参数化假定的概率模型。多数情况下缺省设置应该相当明智,你可能不想要担心这些。

FPRIORMEAN,FPRIORSD (双精度) 见FREQSCORR。Fk的先验被取具有平均数

FPRIORMEAN和标准偏差FPRIORSD的γ。我们的缺省设置将许多权重放于F的小值上。我们发现这使得算法对细微的结构敏感,但是增加了过高估计K的风险(Falush et al., 2003a)。

UNIFPRIORALPHA (布尔值) ,ALPHAMAX (双精度) 对?假设一个均匀分布的先验,运

行在0和ALPHAMAX之间。这个模型好像工作很好;其它的模型(当UNIFPRIORALPHA = 0时)是取?作为具有γ分布的先验,具有平均数ALPHAPRIORA×ALPHAPRIORB,方差ALPHAPRIORA×ALPHAPRIORB2。

LOG10RMIN,LOG10RMAX,LOG10PROPSD,LOG10RSTART (双精度) 当连锁模型

被使用时,切换速率r被取为在对数尺度上具有一个均匀的先验,在LOG10RMIN和LOG10RMAX之间。这些值需要由用户确定,以便就被使用的图距单位的尺度而言有意义。

使用先验的群体信息(USEPOPINFO)

GENSBACK (整数) 这对应于G(Pritchard et al., 2000a) 。当对个体使用先验的群体信息

(USEPOPINFO = 1)时,程序测试是否每个体在最后G代有一个移民祖先,其中G = 0对应于个体本身作为一个移民。为了有适当的功效,G应该被设置得相当小(比如2),除非数据的信息非常丰富。

MIGRPRIOR (双精度) 必须是在[0,1]中。这是Pritchard等(2000a)中的v。明智的值可能在

0.001—0.1的范围内。

PFROMPOPFLAGONLY (布尔值) 这个选项是2.0版新有的,使仅仅使用预先指定的个体

的子集来更新等位基因频率P成为可能。为了使用这个选项,包括一个POPFLAG列,对应该用来更新P的个体设置POPFLAG=1,对不应该用来更新P的个体的设置POPFLAG = 0。USEPOPINFO打开或者不打开,都可以使用这个选项。

这个选项将是有用的,例如,如果你有来自已知群体的一组准参考个体,然后你想要估计一些未知的个体的祖先。使用这个选项,每个未知个体的q估计值只依赖于参考个体组,而不依赖于样本中的其它未知个体。这个特点有时是合乎需要的。

使用地点信息的LOCPRIOR模型

LOCISPOP (布尔值) 当LOCPRIOR模型打开时,这个选项指导程序使用输入文件中的

PopData列作为地点数据。当LOCISPOP = 0时,程序需要一个LocData列来使用LOCPRIOR。

LOCPRIORINIT (双精度) LOCPRIOR参数r的初始值,确定群体的信息有多丰富

(citepHubiszEtAl09)。我们发现LOCPRIORINIT = 1有助于取得好的收敛。

MAXLOCPRIOR (双精度) r的范围是来自(0,MAXLOCPRIOR)。我们建议

MAXLOCPRIOR = 20。

输出选项

PRINTNET (布尔值) 打印聚类之间的“净核苷酸距离”。群体A和B之间的这个距离DAB

被计算为

DA,B1L?Jl(l)(l)?(HA?HB)?A,jp?B,j??, (5) ???1??pLl?1?j?12?(l)?x其中p,j是群体x中位点l上的等位基因j的等位基因频率的后验平均估计,L是位点的数目,

Jl是位点l上的等位基因的数目,其中

1L?Jl(l)2??x,j?, (6) Hx???1??pLl?1?j?1?净核苷酸距离是分别来自群体A和B的一对等位基因不同的平均概率,小于群体内平均杂合性。或许更直觉地,这可以被认为是来自不同群体的等位基因之间成对差异的平均数量,超出每个群体内存在的变异的数量。该距离有合适的特性,即相似的群体之间的距离接近0,并且尤其,DAA = 0。注意到距离是对称的,以至于DAB = DBA。这个距离适于画群体的树来帮助直观化聚类之间的差异的水平(Falush et al., 2003b)。 PRINTKLD (布尔值) [不赞成]这个选项不再可用。 PRINTLAMBDA (布尔值) 打印?的当前到屏幕。

PRINTQSUM (布尔值) 打印当前的Q估计的摘要到屏幕;这打印PopData的每个值的平均数。

SITEBYSITE (布尔值) (连锁模型)为数据里的每种基因型打印分派概率的完整的摘要。这被打印到一个单独的文件,具有后缀―ss‖。这个文件可能是大的!

PRINTQHAT (布尔值) 当这个被打开时,Q的点估计不仅被打印到主要的结果文件,而且被打印到一个单独的后缀为―q‖的文件。为了运行姊妹程序STRAT,需要这个文件。 UPDATEFREQ (整数) 对屏幕打印更新的频率。如果这= 0则自动设置。 PRINTLIKES (布尔值) 在每个迭代过程中把似然函数的当前值打印到屏幕。

INTERMEDSAVE (整数) 如果你渴望在运行结束之前看见初步的结果,你可以让程序在MCMC运行期间每隔一段时间将结果打印到文件。总共打印INTERMEDSAVE个这样的文件,在继BURNIN的完成之后相等的间隔。通过设置为0关掉这个选项。使用OUTFILE名字创造的这些文件的名字。

ECHODATA (布尔值) 把数据集的概要打印到屏幕和输出文件。(打印输入文件最顶行和最底行的开头和结尾,以便允许用户检查它已经被正确地读取。)

ANCESTDIST (布尔值) 收集关于每个体的Q的分布的信息,也只估计平均值。当这被打开时,输出文件包括每个q(i)的概率区间的左端和右端。(概率区间是置信区间的贝叶斯类似

物。)打印的值显示概率区间的中间100p%,其中p是0.0到1.0的范围内的一个数字,用ANCESTPINT设置。Q的分布通过记录在0和1之间的许多箱子的每一个点击(hit)的数目被估计,以便形成某种直方图。这些箱子的宽度一样大小,是使用NUMBOXES确定的。

杂项

COMPUTEPROB (布尔值) 在每次更新时打印数据的对数似然,并估计给定K和模型的数

据的概率(参阅第5节)。这被用于估计K,并且对于burnin(老化?)是否足够长也是一个有用的诊断。关掉这个选项的主要原因将是加速程序(~ 10–15%)。

ADMBURNIN (整数) (当RECOMBINE=1时使用)当使用连锁模型时,在大多数情形下

强烈推荐利用混合物模型的短的burnin(比方说500次迭代)。没有这样的burnin,连锁模型经常生产独特的结果。设置ADMBURNIN

ALPHAPROPSD (双精度) ?的Metropolis-Hastings更新步骤涉及从一个具有平均数#和标

准差ALPHAPROPSD>0的正态分布中挑选一个值??。ALPHAPROPSD的值不影响Markov链的渐近的行为,但是可能对收敛的速率具有显著的影响。如果有许多关于?的信息,则小的ALPHAPROPSD值对于获得合理的接受速率更可取。如果没有很多关于#的信息,则更大的值产生更好的混合。

STARTATPOPINFO (布尔值) 使用给定的群体作为群体起源的起始条件。(需要

POPDATA==1)。这个选项提供Markov链正在正确地收敛的一个检查,如果你期望推断的结构与输入标签相配,而它没有。这个选项假定输入文件里的PopData在1和k之间,其中k ? MAXPOPS。PopData不在这个范围内的个体随机起始。

RANDOMIZE (布尔值) 为每次运行使用一个不同的随机数种子,取自系统时钟。(也见

SEED)

SEED(整数) 如果RANDOMIZE==0,则模拟种子被预置为SEED。这允许运行被准确地

重复。如果RANDOMIZE==1,则在SEED里指定的任何值被忽略。注意即使当RANDOMIZE==1时,注意那个==1,程序输出仍然表明开始的种子值,这样的话,如果需要,可以重复特定的运行。

METROFREQ (整数) 在混合物模型下使用Metropolis-Hastings步骤来更新Q的频率。当这

个选项被使用时,为每个q(i)选择一个新的提议值q(i)?。这个提议值是从先验(即q(i)? ~ D(?,