单个染色体,它由一系列“块(chunk)”组成,这些“块”是从混合时的祖先那里作为离散的单位遗传来的。出现混合LD是因为连锁的等位基因经常在相同的块上,因此来自相同的祖先群体。
块的大小被假设为独立的指数随机变量,具有平均长度1/t(以摩尔根为单位)。在实践中我们估计“重组率”r,所用的数据对应于从现在的块切换到新的块的比率。个体i里的每个块以概率qk(i)独立地来自群体k,其中qk(i)是那个个体的祖先来自群体k的比例。
总起来,新模型保留了混合模型的主要要素,但是在单个块上的全部等位基因必须来自相同的群体。新的MCMC算法结合了可能的块大小和断点。它对于每个体报告总的祖先,考虑连锁,并且也能报告染色体的每一点儿的起源的可能性,如果用户想要的话。
当使用连锁的位点来研究混合的群体时,这个新模型表现得比原先的混合模型更好。它得到对祖先向量的更准确的估计,并且能从数据中抽出更多的信息。这对混合作图应该是有用的。该模型不是用于处理非常紧密连锁的标记之间的背景LD的。 显然,这个模型是大多数混合群体的复杂现实的大大的简化。不过,混合的主要的效应是在连锁的标记之间建立长远的相关性,因此我们这里的目的是在一个相当简单的模型中将那个特征包括进来。
计算比混合模型的要慢一点,特别对于大的K和不知道连锁相的数据。不过,它们对于数千个位点和个体以及多个群体来说还是切实可行的。如果有关于标记的相对位置的信息(通常是一张遗传图谱),则只能使用该模型。
4. 使用先验的群体信息。Structure的默认模式只使用遗传学的信息来了解群体结构。不过,经常有可以与聚类相关的附加信息(例如,取样的个体的物理特性或者取样的地理位置)。目前,Structure可以用3种方式使用这种信息:
? LOCPRIOR模型:利用取样位置作为先验信息来辅助聚类——用于结构信号比较弱的数据集。有一些数据集,其中有真实的群体结构(例如,取样位置之间的显著的FST),但是信号太弱,标准的Structure模型不能发现。对于标记很少、个体很少或者非常弱的Structure,经常是这样的情况。
在这种情形下,为了提高性能,Hubisz等(2009)发展了新模型,利用地点信息来辅助聚类。对于这样的数据集,其中结构的信号太弱以致使用标准的Structure模型不能被发现,新模型经常能提供群体结构和个体祖先的准确的推断。
简言之,LOCPRIOR模型的基本原理如下。通常,Structure假定个体的所有部分都大约是先验等可能的。因为可能的部分的数目非常巨大,对于Structure来说,需要信息非常丰富的数据来断定个体的任何特定的部分被聚类到群具有强的统计支持。相反,LOCPRIOR模型认为实际上,来自相同的取样位置的个体经常来自相同的群体。因此,建立LOCPRIOR模型以期望取样的位置可能关于祖先是信息丰富的。如果数据表明位置是信息丰富的,那么LOCPRIOR模型允许Structure使用这种信息。 Hubisz等(2009)发展了一对LOCPRIOR模型:一种用于没有混合的情况,一种用于有混合的情况。在两种情况中,内在的模型(以及似然函数)与标准版本相同。关键的差别是允许structure使用地点信息来帮助聚类(即,通过修改先验信息来得到与位置有关的更偏爱的聚类解决方案)。
LOCPRIOR模型具有合乎需要的特性:(i)当不存在结构时,它们不倾向于发现结构;(ii)当个体的祖先与取样位置不相关时,他们能够忽视取样的信息;(iii)当群体结构的信号非常强大时,旧模型和新模型基本上给出相同的答案。因此,我们建议在大多数数据数量非常有限的情形下使用新模型,特别是当标准的Structure模型不提供一个Structure的清晰信号时。但是,因为现在已经积累了标准的Structure模型的很多经验,我们建议对于信息非常丰富的数据集将基本模型作为默认(Hubisz 等等,2009)。
为了运行LOCPRIOR模型,用户必须首先为每个个体指定“取样地点”,作为一个整数编码。即,我们假定样品是在一组分离的位置收集的,并且我们不使用关于地点的任何空间信息。(我们认识到,在一些研究中,每个个体可能在一个不同的地点收集,因此将个体塞进一套更小的分离的地点可能不是对数据的理想的代表。) “地点”也可以代表一个表现型、生态型(ecotype)或者民族团体(ethnic group)。
地点被键入到输入文件中,要么在PopData列(设置LOCISPOP = 1)中,要么作为一个单独的LocData列(参阅第2.3节)。为了使用LOCPRIOR 模型,你必须首先指定或者用混合模型用非混合的模型。如果你使用的是图形用户界面版本,则勾选“use sampling locations as prio”(用取样位置作为先验信息)框。如果你使用的是命令行版本,则设置LOCPRIOR = 1。(注意,LOCPRIOR与连锁模型不兼容。)
我们迄今的经验是当不存在结构时,LOCPRIOR模型不偏向于检测到假的结构。你可以把相同的诊断用于是否有真的结构,当你没使用LOCPRIOR时。另外查看r的值可能有帮助,它确定由位置携带的信息的数量。r的值接近1,或者<1,表明位
置是信息丰富的。r的更大的值表明或者没有群体结构,或者结构不依赖位置。 USEPOPINFO模型:使用取样位置来对移居者或者杂交种进行检验——供信息非常丰富的数据数据集使用。在一些数据集里,用户可能发现预确定的组(例如取样位置)几乎正好与结构聚类相对应,除了少数似乎被错误归类的个体以外。Pritchard等(2000a)提出了正式的Bayesian检验,用于评价是否在这个样品内的任何个体是他们认为的群体的移民,或者具有新近的移民祖先。
注意这个模型假定被预先规定的群体通常是正确的。它采用十分强大的数据来克服先验的错误分类。在使用USEPOPINFO模型之前,你也应该在没有群体信息的情况下运行程序,以保证预确定的群体与遗传学的信息粗略一致。
为了使用这模型,把USEPOPINFO设置为1,并且选择MIGRPRIOR的一个值(在Pritchard等(2000a)中它是v)。你可以在0.001到0.1的范围内为v选择一个值。
每个个体的预确定的群体被设置在输入数据文件中(见PopData)。用这种方式,在输入文件里被分配到群体k的个体在Structure算法中将被分配到群k。因此,被预先规定的群体应该是在1和MAXPOPS (K)之间的整数。如果任何个体的PopData超出这个范围,它们的q将按正常的方式被更新(即没有先验的群体信息,根据将被使用的模型,如果USEPOPINFO被关上的话。)
USEPOPINFO模型:预先指定一些个体的起源的群体来帮助未知起源的个体的祖先估计。使用USEPOPINFO模型的第二个方法是定义“学习样本”(learning samples),它被预定义为来自特定的群。然后用Structure来聚类剩下的个体。注意:在前端里,这个选项使用“Update allele frequencies using only individuals with POPFLAG=1”选项被打开,位于“Advanced Tab”标签下。
学习样品是利用数据文件里的PopFlag列实现的。预先规定的群体被用于那些个体,它们的PopFlag = 1(并且它们的PopData在(1...K)中)。对于PopFlag = 0的个体,PopData值被忽略。如果数据文件里没有PopFlag列,那么当USEPOPINFO被开启时,PopFlag被为全部个体设置为1。具有PopFlag = 0的或者PopData不在(1...K)中的个体的祖先,根据混合或者没有混合的模型被更新,象由用户指定的那样。如上所述,如果有很少的个体没有预先规定的群体,将?设置成一个明智的值来可能是有帮助的。
USEPOPINFO的应用可能在几个方面有帮助。例如,可能有一些个体的来源是已知的,我们的目标是对未知来源的另外的个体进行归类。例如,我们可能从一群
已知品种(编号为1 . . .K)的狗中收集数据,然后使用Structure为未知的(也许是杂交种)起源的另外的狗估计祖先。通过预先设置群体数目,我们可以保证Structure聚类对应于预先确定的品种,这使输出更可解释,并且能改进推论的准确性。(当然,如果两个预先确定的品种在遗传上是相同的,那么未知起源的狗可能被推断为具有混合的祖先。
USEPOPINFO的另一种用途是用于这样一种情况:用户想要只使用个体的一个子集来更新等位基因频率。通常,Structure分析使用全部可得到的个体来更新等位基因频率估计值。但是有一些情况,在那里你可能想对于一些个体估计祖先,没有那些个体会影响等位基因频率的估计。例如你可以有学习样品的一个标准的收集,然后周期性地你想要为新的一批基因型化的个体估计祖先。使用默认的选项,个体的祖先估计(稍微)取决于它们所在的批次。通过使用PFROMPOPFLAGONLY,你可以保证等位基因频率估计值只依赖于PopFlag = 1的那些样品。在不同的情况下,Murgia等(2006)想要确定一套无性系的狗瘤的起源。那些瘤如此紧密有关以至于使用的缺省设置时瘤形成它们自己的一类。通过使用PFROMPOPFLAGONLY,Murgia等迫使瘤与其他canid聚类分在一组。
意见:我们建议首先运行Structure的基本的版本,以便证实被预先规定的标签确实的确符合实际的遗传学群体。其次,当使用学习样品时,通过设置比0大的MIGRPRIOR来允许一些错误的分类可能是明智的。
3.2 等位基因频率模型
对于等位基因频率有两个基本的模型。一个模型假定每个群体内的等位基因频率是独立的,从一个分布中抽取,这个分布由参数?指定。那是用于Pritchard等(2000a)种的原先的模型。通常我们设置? = 1;这是缺省设置。
Falush等(2003a)实施了一个模型,具有相关的等位基因频率。这个模型标明不同群体中的频率很可能是相似的(或许由于迁移或者由于共有的祖先)。更详细的资料如下。
独立的模型对于很多数据集表现不错。粗略地说,这最先说我们期望在不同的群体中的等位基因频率彼此不同。相关的频率模型说它们实际上可能十分相似。对于亲缘关系近的群体,这经常改进聚类,但是可能增加过高估计的K的危险(如下)。如果一个群体与其他群体分歧较大,则当那个群体被除去时,相关的模型有时可以取得更好的推论。
估计?: 固定? = 1对于大多数数据是一个好主意,但是在一些情况下,例如SNP数据,