畜牧兽医学报  2018, Vol. 49 Issue (6): 1099-1107. DOI: 10.11843/j.issn.0366-6964.2018.06.001    PDF    
畜禽选择信号检测方法及其统计学问题
薛周舣源#, 宋显威#, 吴林慧, 王露珍, 崔家安, 孙章健, 张政, 马云龙     
华中农业大学 农业动物遗传育种与繁殖教育部重点实验室, 武汉 430070
摘要:畜禽选择信号的研究随着基因组大数据的爆发式增长,已经成为目前畜禽群体遗传学研究与重要经济性状基因定位的一个重要手段。使用恰当的选择信号方法,了解选择信号检测中的统计学问题,对于准确解析畜禽适应性进化的潜在遗传机制,精细定位重要经济性状的候选基因具有重要的意义。围绕畜禽基因组选择信号研究概况,本文对选择信号的概念、检验统计量类别、畜禽选择信号检测的影响因素及相关统计学问题进行了综述,以期为进一步拓展选择信号的研究思路提供参考。
关键词畜禽    选择信号    统计学问题    
The Identification Methods of Selection Signatures in Livestock and Its Statistical Problems
XUE Zhou-yi-yuan#, SONG Xian-wei#, WU Lin-hui, WANG Lu-zhen, CUI Jia-an, SUN Zhang-jian, ZHANG Zheng, MA Yun-long     
Key Laboratory of Agricultural Animal Genetics, Breeding and Reproduction of the Ministry of Education, Huazhong Agricultural University, Wuhan 430070, China
Abstract: Identification of selection signatures have become an important tool in population genetics and gene mapping of economically important traits with the explosion of genomic data. Using proper statistical methods and understanding the potential statistical problems in identification of selection signature are of great significance to accurately locate the candidate genes affecting economically important traits and reveal the potential genetic mechanism of adaptive evolution of livestock and poultry. This paper reviews the concept, the category of testing statistics of selection signature, the influencing factors and the related statistical problems in identification of selection signatures. It is expected to provide a reference for further research on identification of selection signatures.
Key words: livestock     selection signatures     statistical problems    

人工选择是畜禽遗传改良的重要手段,是使畜禽体型外貌、行为习惯明显区别其野生祖先,肉蛋奶等重要经济性状不断被选育提高的根本动力,表现为优势等位基因频率、连锁不平衡程度等基因组结构特征的变化[1-4]。因此,揭示选择作用造成表型变化的潜在遗传学基础、定位与经济性状关联的主效基因,对于畜禽遗传改良具有重要的意义。这种由选择作用造成的基因组结构特征变化被称为选择信号(selection signatures or selection footprints)[5-7]。其主要特征:(1)被选择位点极端的等位基因频率;(2)被选择区域长范围扩展单倍型纯合;(3)群体分化。由于基因组核苷酸位点间不同的连锁不平衡程度,被选择等位基因与其紧密连锁的基因在选择过程中呈现频率的跟随变化被称为“搭便车效应”(hitchhiking effect);同一基因座上,未被选择等位基因及其连锁基因的频率降低现象被称为“选择性清扫”(selective sweep)。两者是选择信号的不同表述方式,体现的群体遗传学现象相同[8]

随着分子标记与计算机技术的迅猛发展,目前畜禽全基因组选择信号的研究已经成为畜禽群体基因组学研究的热点,相关研究报道几乎涵盖了全部猪、牛、羊、鸡等畜禽品种[1, 3, 9-12],理论体系不断完善、统计方法推陈出新。基于选择信号分析的基因定位,围绕畜禽重要经济性状揭示了一批潜在的功能候选基因,为畜禽遗传改良提供了一批潜在的分子标记位点,丰富了畜禽重要经济性状的遗传学基础。本文旨在综述目前畜禽基因组选择信号检验统计量的类别以及存在的一些统计学问题与解决办法,以期为进一步拓展选择信号的研究思路提供参考。

1 选择信号的分类

根据被选择等位基因或单倍型的初始频率,选择信号可分为经典选择信号(hard sweep, classic selective sweep or standard selective sweep)和温和选择信号(soft sweep)[8, 13]。理论上认为经典选择信号在适应性进化过程中,基因组上新产生的有利突变(beneficial mutation)将会在恒定选择压力的作用下迅速在群体中扩散并最终固定。然而,研究表明,基因组选择信号的形成不可能全部源自新的有利突变,这在畜禽遗传改良中体现的尤为明显;基于有限的群体规模、较短的育种时间与极低的基因突变频率,突然变化的选择压力造成的基因组特征变化, 不大可能完全符合经典选择信号理论的期望[8]。因此,相对于经典选择信号理论,温和选择信号模型被提出。温和选择信号理论认为,在适应性进化过程中,选择压力突然变化造成的快速适应性进化相对于经典选择信号模型,更有可能来自于群体本身已经产生且具有一定等位基因频率的一个或多个遗传突变(standing genetic variation)[14]

根据被选择等位基因或单倍型频率的变化方向,选择又可以被分为正向选择(positive selection)、负向选择(negative selection)和平衡选择(balancing selection)[1, 5, 15]。正向选择是选择中最常见的一种形式,当群体中出现新的有利突变时,该位点对应的适合度将从一个极端向着另一个极端转化。在这种适应性进化的过程中,选择作用是有利突变位点方向性进化的潜在驱动力,因此,正向选择也被称为方向性选择(directional selection)。目前,绝大多数的选择信号检验统计量均围绕其构建与发展[16]。负向选择是指群体中的某种表型性状不再适应目前环境或育种需求时,与该性状相关联的等位基因频率将会被选低或淘汰的过程。通常该类等位基因所关联的表型性状对群体在当前环境下的生存和繁衍是不利的,因此也被称为净化选择(purifying selection)[17]。当一个基因座上,两个等位基因均表现出相同的适应性时,群体中的这些位点将始终在选择的作用下保持一定的遗传多态、处于一定的动态平衡,这一类选择作用被称为平衡选择[18]。此外,同物种群体不同亚群之间,由于偶然或其它一些主观因素,造成影响某些性状的潜在遗传位点向着同样的方向被选择的过程被称为平行选择(parallel selection)[19]。而选择作用使影响某些性状的潜在遗传位点在不同的亚群中向着不同的方向进化则被称为歧化选择(divergent selection),表现为不同等位基因受到选择的作用[20]

2 选择信号检验统计量

分子生物学技术的迅速发展在很大程度上促进了选择信号检验统计量的开发与应用。针对单个物种,根据使用基因组信息来源的差异,选择信号检测的方法可以被分为4大类:基于等位基因频率谱的方法(allele frequency spectrum based on methods);基于连锁不平衡的方法(linkage disequilibrium based on methods);基于群体分化的方法(population differentiation based on methods)和基于复合策略的检验统计量方法(combining statistics)。

2.1 基于等位基因频率谱的方法

基因型频率和基因频率的改变是选择作用在基因组上最直接的体现。所谓位点频率谱(site-frequency spectrum)就是指某种等位基因频率在基因组上某个目标区域内出现的频繁程度[21]。依据中性分子进化理论,标准的中性模型包含群体中个体之间随机交配,有效群体大小固定不变,不存在群体分离等基本假设。满足上述假设条件的模型,位点频率谱Xi的期望值是1/i,其中,i代表新突变等位基因在研究群体中的频数。通俗地说,标准的中性群体理论上存在广泛的遗传多态,当突变发生时总能够被维持在一个较低的频率。只有当群体基因组上出现或存在有利突变时,选择才会发生作用,从而产生所谓的选择性清除或“搭便车”效应。目前,许多经典的选择信号检测方法都是基于位点频率谱构建,如:Tajima's D[22];Fu and Li's D, F, D * and F*[5];Fay and Wu's H[5];CLR[23]和ZHp[24]

目前研究表明,基于位点频率谱的方法对已经固定的选择信号具有较高的检测效力,其中CLR方法检验效力高于其它基于位点频率谱的方法[25]。其根本原因主要包括两个方面:(1)通过比较检测窗口位点频率谱与全基因组范围频率谱的差异,在一定程度上避免了种群历史的干扰;(2)基于滑动窗口的策略,间接利用了连锁不平衡信息并消除了漂变等噪音的干扰。其核心统计量构建为:

$ {T_1} = 2\left\{ {\log C{L_1}\left( {{{\hat p}_{v \leftrightarrow b}};v \leftrightarrow b} \right) - \log C{L_1}\left( {\hat p;v \leftrightarrow b} \right)} \right\} $

其中,位点频率谱在某个区域的极大似然函数表示为CL1(p; vb)=$ \prod\nolimits_{i = v}^b {{p_{xi}}} $。该统计量通过在全基因范围内,检测某一区域内等位基因频率谱的偏倚程度,有效地降低了基于单位点基因分型造成的估计偏倚[23, 25]

2.2 基于连锁不平衡的方法

染色体上不同基因座位之间的相关性被定义为基因的连锁不平衡程度。随着标记间距的增加,位点间的连锁不平衡程度将会逐渐降低。因此,在基因组上可以观察到选择作用造成的不同长度的扩展单倍型纯合。基于上述特征衍生出了一系列选择信号的检测方法,主要的代表有EHH[26],iHS[27],XPEHH[7],OmegaPlus[28]和nSL[29]。其基本原理是:与有利突变紧密连锁的中性位点会由于选择作用在基因组上形成高频率的核心单倍型,以其为中心向基因组两侧扩展会形成长范围的扩展单倍型。然而随着与有利突变间距的增加,连锁不平衡程度会相应衰减,在一定范围内各扩展单倍型纯合的总和占核心单倍型纯合的比例可以被用来检测基因组范围内的选择作用。其核心统计量构建为:

$ EH{H_t} = \sum\nolimits_{i = 1}^s {\left( \begin{array}{l} {e_{{t_i}}}\\ \;2 \end{array} \right)} /\left( \begin{array}{l} {c_t}\\ \;2 \end{array} \right) $

其中,ct表示核心单倍型t的数目;eti表示围绕核心单倍型t,其扩展单倍型i的数目;s是所有扩展单倍型的总数。研究表明,基于扩展单倍型纯合思想的方法,对于正在进行或者即将固定的选择信号具有较高的检测效力[7]。其根本原因在于利用基因组连锁不平衡信息,是以单倍型为单位,相对于单位点方法与位点频率谱的方法增加了选择信号区域的多态。

假如群体进化历史清楚,等位基因衍生的先后顺序能够准确区分,那么通过比较祖先等位基因和新产生的等位基因所在扩展单倍型,计算其关于遗传距离的积分将有助于选择信号的精确检验。基于上述设想,iHS统计量被构建出来。然而,实际应用表明,基因组选择存在反复性,无论新产生的等位基因,还是祖先等位基因,均可能成为选择的潜在作用位点。因此,iHS统计量的绝对值常在实际的研究中被使用,旨在揭示选择信号背后的功能基因[27]。nSL与iHS统计量的构建基本一致,在模拟数据的研究中表现也极为相近,主要用于不完全选择信号的检测[29]。相比于其它扩展单倍型纯合的方法,OmegaPlus方法主要在于充分利用了位点间连锁不平衡的信息[28]

2.3 基于群体分化的方法

同一物种不同群体之间由于环境不同、选择目标不同,不同群体间基因组等位基因频率将会表现出歧化选择的效应。这种现象在相同基因座位不同等位基因均受到选择时表现尤为明显,即选择加速群体分化。因此,不同群体同一等位基因频率存在的差异程度大于两个群体处于中性条件下的期望时,基于群体分化的方法就可以拒绝中性假设而推断该位点存在选择作用。基于上述假设,1973年Lewontin和Krakauer[30]在Wright[31]固定指数(FST)的基础上首先提出了利用群体比较思想构建的单位点选择信号检验统计量。在其后的几十年里,FST得到了不同程度的发展,其中典型的代表有Weir和Cockerham[32]FST, Akey等[33]FST和Gianola等[34]FST等。上述FST方法普遍采用基因组单位点扫描策略,统计量取值范围为0~1,1表示群体间完全分离的位点,0表示在群体之间完全没有分化的位点。由于单位点估计的原因,该类方法容易受到遗传漂变等因素的影响,对种群历史因素的稳健性相对较低。为避免假阳性的发生,通常采用滑动窗口的策略降低上述因素的干扰,增加选择信号检测的准确性[25]

基于群体分化的思想,除固定指数系列方法外,群体间选择信号的检测利用扩展单倍型纯合与位点频率谱的思想也衍生出了一系列新的方法,如XPEHH[7],XPCLR[35],hapFLK[36],LSBL[37]和3p-CLR[38]。XPEHH统计量通过比较两个群体同一区域的长范围单倍型纯合情况,鉴定群体间由于选择作用造成的分化现象。当XPEHH为正值时,表示选择发生在观测群体中;相反,选择则发生在参考群体中。由于统计量能够通过正负值反映选择发生的群体,所以该方法严格意义上应该属于基于连锁不平衡信息的品种内选择信号检测方法[7]。然而,当两个群体在基因组某一区域均受到选择作用时,该方法不具任何检测效力[25]。与XPEHH方法不同,Chen等[35]综合位点频率谱思想,通过比较不同群体多个位点等位基因频率谱的差异,提出了XPCLR检验统计量。模拟研究发现,在迁移率较高的情况下,选择位点分化程度低的群体,其检测效力有限;但是对迁移率低、群体结构简单的资料,XPCLR表现出较高的检测效力[25, 39]。相比于上述两种方法,hapFLK方法将群体间位点频率谱差异的思想拓展到了群体间单倍型等位基因频率差异的层面[36],LSBL和3p-CLR则将两群体位点频率谱差异延伸到3个群体之间的比较[37-38]

2.4 基于复合策略的方法

综合利用选择信号的全部基因组特征信息,更加全面、准确地揭示基因组范围内的选择信号,是选择信号方法研究的重要方向,这在一定程度上促进了复合方法的发展。其主要思想包括两个方面:(1)基于相同理论基础的选择信号方法能够相互验证从而避免选择信号假阳性的发生;(2)不同理论基础的选择信号方法能够互补,全面、彻底地揭示基因组选择信号。其中主要的代表包括CMS[40]、Meta-SS[41]、CSS[42]与DCMS[25]方法。

Grossman等[40]基于现有统计方法,利用人类群体已知的演化历史,通过溯祖模拟,在人类群体基因组选择信号的研究中构建了CMS统计量,其检验效力和准确性均得到明显提高。然而,绝大多数畜禽品种的历史背景通常较为复杂;不断变化的选择压力、瓶颈效应与群体膨胀使得人工选择背景下的畜禽群体很难完全移植CMS统计量的构建思路。为了充分利用现有选择信号检测方法,同时避免合并过程中由于相似理论基础可能造成的假阳性,Ma等[25]开发了DCMS方法,该方法能够在控制假阳性的条件下,有效提高选择信号的检验效力。此外,在畜禽选择信号复合策略的研究中,Utsunomiya等[41]基于CMS方法的思想构建了复合统计量meta-SS;该方法利用Whitlock提出的算法对单个统计量的P值进行合并。相似地,Randhawa等[42]提出另一个基于统计量排序的选择信号复合策略CSS,并成功地应用于牛和绵羊群体的选择信号检测。

3 选择信号的基因组数据模拟软件与统计检验 3.1 数据模拟与常用软件

数据模拟是统计方法研究的重要组成部分,有助于模拟各种真实数据无法满足的群体基因组结构特征。目前,群体遗传学中基因组数据模拟主要包含两种不同的策略:正向模拟(forward simulation)和溯祖模拟(coalescent simulation)。所谓正向模拟是指:利用已知群体结构、交配方式等基本信息,使用孟德尔遗传学原理与群体遗传学统计理论来模拟未来的群体数据信息。与“正向”模拟策略相反,Kingman基于群体遗传学中“血统同源性”(identity by descent)的观点,提出了“回溯”模拟策略并进行了详细的论述,这就是著名的溯祖理论[43-45]。其核心思想为如果一个符合Wright-Fisher模型的群体中,群体大小恒定,没有重组,那么群体任何一个基因座上N条不同的序列均可以追溯到一个共同的祖先;在这个溯祖的过程中,突变造成的基因多态性将会逐渐消失。与“正向”模拟相比,对于人类群体这样具有清楚演化历史的生物类群,“溯祖”模拟相对更加合理;然而对于畜禽等遗传背景较为复杂的生物类群,基于经验的“正向”模拟或许更加可靠[46]

Hudson[47]围绕中性检验开发了ms模拟软件;基于溯祖理论体系,该软件可以模拟中性进化理论下的基因组数据,但是不能模拟选择作用。随着分子标记技术与计算机技术的发展,选择信号方法研究得到了更加深入的发展;这促使了该类软件中选择模块的开发。目前,模拟程序主要是针对单位点的选择模拟,考虑群体遗传学因素相对简单,不具备多群体选择作用的模拟。msms软件在ms软件的基础上引入了单位点选择模型,并延伸出多群体结构模型的模拟[48]。与msms软件相似,simuPOP和cosi也能够很好地用于群体数据模拟。其中simuPOP是正向模拟的代表[49],而cosi是人类群体中溯祖模拟使用最广泛的软件[7]。上述模拟软件的开发,在一定程度上促进了选择信号方法的发展,为不同方法的比较提供了相对合理公平的平台。

3.2 选择信号的统计检验

判断计算统计量偏离零假设的可能性就是所谓的显著性检验,旨在判断原假设与真实情况是否存在显著性差异。对于选择信号检验统计量,即判断由于选择作用造成基因组特征变化是否显著偏离中性理论期望。通常情况下,显著性检验需要基于一个可以计算相伴概率的已知分布。但是,由于不同的理论基础与算法设计,绝大多数选择信号检验统计量没有明确的理论分布。因此,使用多大的检验阈值,如何控制假阳性和假阴性始终是困扰选择信号显著性检验的问题。目前,选择信号显著性检验方法主要包括基于随机重排的显著性检验方法、极值判断法、基于中性模拟的显著检验方法和基于已知分布的显著性检验方法。

3.2.1 基于随机重排的显著性检验方法

随机重排构建经验分布是QTL定位中的经典方法,主要通过打乱表型与个体的对应关系来获得统计量的经验分布[37, 46]。相对于基因与表型的关联,与选择作用关联的是基因组特征的变化与群体之间的差异。因此选择信号经验分布的构建针对群体内和群体间的方法分别可以为:对基因组进行随机重排与对群体进行随机重排。对于群体重排的方法,两个群体之间应该具备近似的样本数目并保证每个群体有足够的样本量,否则样本大小造成的偏倚在很大程度上会影响最终显著性检验的效果。

3.2.2 极值判断法

基于极端值(outlier)选择信号的显著性判断是目前使用最为广泛的显著性判断办法,通常选择极端的0.01或者0.001作为阈值水平[46, 50]。其基本假设为:基因组上绝大多数的位点、区域未受到选择的作用,而适应性进化只会造成少部分的基因组特征发生改变,表现为长范围单倍型纯合等选择信号特征;因此,可以采用异常值来判断基因组受到选择的区域。然而,纯粹的异常值检验极有可能造成假阳性或者假阴性的错误,因为准确的阈值无法知道。针对上述情况,在研究中常常采用折中办法,选取与实验群体相比选择作用较弱,遗传背景相近的群体作为参照,计算其对应统计量来构建经验分布。

3.2.3 基于中性模拟的显著检验方法

在群体遗传学的研究中与有利变异相对的是基因组上占大多数的中性变异,这些变异不会对生物的适应性造成不良影响。在种群历史清楚的情况下,通过合理的数据模拟可以构建中性理论框架下的群体数据,继而获得相应的经验分布[40, 46]。目前,采用的手段主要包括正向模拟与溯祖模拟。对于畜禽群体而言,群体选育背景复杂,受多种因素的影响。因此,在经验分布的构建中,畜禽群体的选择信号研究似乎更适宜采用正向模拟。

3.2.4 基于已知分布的显著性检验方法

在目前选择信号的方法中,XPEHH与iHS等部分检验统计量服从或者近似服从正态分布,因此在显著性检验过程中,其标准化统计量的P值可以基于标准正态分布计算获得[7, 26]

4 畜禽基因组选择信号的可靠性验证

畜禽基因组选择信号检测,其目的之一便是鉴定影响畜禽重要经济性状的主效基因,进而揭示其潜在的生物学意义。然而,绝大多数选择信号检验统计量通常没有严格地服从某个确定的分布,选择信号检验中假阳性、假阴性的问题始终可能存在。因此,选择信号可靠性验证不仅是一个统计学问题,也是一个生物学问题。目前关于选择信号可靠性的验证主要包含统计层面的可靠性验证、基于生物信息数据库的可靠性验证、基因功能层面的可靠性验证。

4.1 统计层面的可靠性验证

基因组选择信号可靠性验证方法,目前主要还是基于不同的统计学方法采取类似交叉验证的策略,主要包括不同群体间选择信号的交叉验证、基于全基因组关联分析的验证、多种选择信号方法的交互验证。

4.1.1 不同群体间选择信号的交叉验证

研究发现,一些控制质量性状的重要候选基因,如KIT等毛色基因,均在不同群体中反复被证明受到人工选择的作用[50-51]。与此同时,使用恰当的选择信号检测方法,在足够的标记密度下,约20个无关个体足以用于选择信号的检测,并达到较理想的检验效力[25]。因此,在畜禽选择信号研究中可以通过不同群体或不同研究报道中选择信号的一致性来验证其可靠性。

4.1.2 基于全基因组关联分析的验证

全基因组关联分析是目前基因定位的最主要手段,通过不同的模型设计能够将基因组相应功能区域与具体的表型性状进行关联。因此,基于畜禽基因组选择信号分析进行重要功能基因定位的研究可以通过整合选择信号与经历长时间人工选择性状的关联分析来提高基因组定位区域的可靠性。目前,在基因组大数据的研究中,综合利用选择信号分析与全基因组关联分析精确地定位重要经济性状的潜在候选基因,揭示目标性状遗传改良的潜在作用机理,已经逐渐成为基因组大数据时代基因定位的常规手段[52-53]

4.1.3 多种选择信号方法的交互验证

不同选择信号检测方法基于不同的理论基础与信息来源,不同方法之间揭示的共同选择信号区域,在很大程度上能够避免假阳性的发生。因此,采用多种统计量,综合利用等位基因频率谱、群体分化、长范围连锁不平衡等信息进行选择信号的研究已经成为畜禽选择信号研究的常态[25, 50]。与此同时,也催生一批基于复合策略的选择信号新方法,但是新构建的复合统计量,作为一个新的方法,在各种复杂情况下其检验效力如何仍然需要进一步研究讨论。

4.2 基于生物信息数据库的可靠性验证

日益完善的基因组注释信息、QTL、模式动物表型数据库,都为选择信号的可靠性验证提供了重要的信息来源。基因功能富集分析、生物学通路分析、选择信号潜在区域的QTL挖掘已经成为目前选择信号分析的主要内容,旨在探究选择本身对于基因组塑造的作用机理,探究选择与表型变化的潜在遗传联系[25, 37]。随着测序技术的不断发展,精细的基因组注释得以完成。利用基因组共线性与基因在物种间的保守性(如直系同源基因),可以充分参考功能研究清楚的模式动物基因功能数据库来佐证选择信号的可靠程度。例如,目前可以利用的模式动物鼠基因组信息数据库MGI(www.informatics.jax.org)。

4.3 基因功能层面的可靠性验证

目前,畜禽选择信号的研究习惯于通过与诸如BCO2、KIT等已知受到选择作用的基因进行位置比对,作为揭示选择信号可靠性的论据[24-25]。然而,随着大数据背景下选择信号研究的深入,通过统计层面的可靠性验证与基于生物信息数据库的可靠性验证后,继而深入开展基因功能层面的研究已经逐渐成为目前选择信号可靠性验证的重要手段与趋势。如何通过畜禽选择信号分析,精细定位到具有重要生物学功能的基因已经成为现阶段选择信号研究需要回答的问题。凝胶迁移或电泳迁移率试验(EMSA)能够通过定性与定量分析,有效揭示蛋白与基因组遗传变异间的互作关系。例如,在家兔选择信号的分析中,利用EMSA分析揭示了SOX2基因在神经细胞不同分化时期,家兔和野兔中该基因不同的等位基因表现出明显的凝胶迁移差异,这直观地反映了家兔该等位基因在驯化过程中确实受到过选择的作用[54]

5 畜禽选择信号检测的影响因素与统计学问题 5.1 遗传基础的差异对选择信号检测的影响与统计学问题

目前,畜禽遗传改良主要是围绕具有重要经济价值的数量性状与少数质量性状开展,如毛色、体型、繁殖性状与生长性状。不完全统计表明,目前报道的畜禽基因组选择信号揭示的基因主要涉及到动物行为习惯、体型外貌与部分具有大效应基因座的重要经济性状[1, 9, 55]。这些性状绝大部分是属于受单基因或少数几个基因控制的质量性状,而不是畜禽重要经济性状即育种研究主要关心的数量性状。相对于选择信号研究揭示相关质量性状潜在遗传基础在不同群体、方法与报道中的一致性,数量性状潜在遗传基础的选择信号检测一致性较差[1]。因此,畜禽性状潜在的遗传基础差异,对于选择信号的准确检测具有重要的作用。同时,上述研究也表明:(1)畜禽经济性状选择信号与质量性状选择信号相比要难于检测;(2)目前常用选择信号方法在重要经济性状选择信号的检测中存在不足,需要进一步改进提高;(3)准确定位畜禽重要经济性状的基因组选择信号仍然是目前选择信号研究的重点,构建新的适合于检测畜禽人工选择信号的新方法显得尤为迫切。

5.2 种群历史对选择信号检测的影响与统计学问题

畜群复杂的种群历史是影响选择信号检测准确性的重要因素。例如,畜禽品种形成过程中的瓶颈效应将会在群体基因组上形成类似选择信号的基因组印迹。目前,基于位点频率谱与扩展单倍型纯合的方法无法判断其与真实选择信号基因组特征的区别,检测假阳性必然存在[1, 5]。如何构建对群体历史更具稳健性的选择信号检测方法,也因此成为方法研究的关注焦点。在目前广泛应用的选择信号检测方法中,CLR与REHH方法分别通过与全基因组范围等位基因频率谱和平均统计量比较,有效地降低了群体结构变化对选择信号检测稳健性的影响[23];XPEHH方法通过群体比较,综合利用扩展单倍型纯合的思想,对于存在明显群体分化的选择信号基因组印迹具有相对更高的稳健性[7];而对基于单位点的方法(如:FST)由于通过群体基因频率的比较推断群体选择信号的存在,这使该类方法容易受到随机漂变因素的影响,而在使用该方法检测基因组选择信号时,通常会使用滑动窗口策略来降低随机漂变产生的噪音[56]。因此,选择信号检测过程中,如果充分考虑种群历史,使用恰当的统计方法,对于准确揭示基因组潜在选择信号具有重要的现实意义。

5.3 重组对选择信号检测的影响与统计学问题

基因重组是保持物种遗传多态的一个重要因素,而选择的作用则在于加速基因组优势等位基因的纯合;两者的拮抗作用决定了基因重组是影响选择信号检测准确性的又一个重要因素。研究表明,不同物种、同一物种不同染色体、同一染色体不同片段之间的重组率均存在较大变异[57]。因此,绝大多数选择信号检测方法对重组率都具有较大的敏感性。选择作用形成的长范围单倍型能够维持多长时间,在很大程度上取决于选择强度与重组率对基因组区域的作用强度[26]。选择信号的候选区域其重组率通常较低,绝大多数为基因组重组冷点。相反,重组热点区域很难发现显著的选择信号统计量。研究发现,LCT基因周围的重组率要低于基因组平均水平[58]。目前,除少数统计量(如REHH)外,绝大多数选择信号的检测方法基本没有考虑重组率差异对选择信号判定的干扰。上述情况在很大程度上也造成基因组选择信号检测假阳性和假阴性的发生。Wang等[59]的研究表明,低重组率区域选择信号检测方法的效率会相应提高,因此深入研究重组对选择信号检测的影响有利于更加准确地揭示选择的基因组印迹。

6 展望

畜禽基因组选择信号检测对于揭示影响畜禽重要经济性状的候选功能基因,探究适应性进化的潜在遗传机制具有重要的意义。假如通过恰当的统计方法能够准确地定位畜禽基因组上与重要经济性状人工选择相关的位点,这将对制定更加合理的育种方案具有非常重要的现实意义。基于现有选择信号统计方法,目前畜禽基因组主要的质量性状、具有大效应基因座的部分数量性状的选择信号已经被成功检出,并且各研究之间具有良好的一致性[1]。使用新一代测序技术,如何全面、高灵敏度地定位受微效多基因控制经济性状的基因组选择信号成为新时期畜禽选择信号研究的重点。研究表明,畜禽基因组已产生的遗传变异在其遗传改良过程中发挥着重要的作用,相应的选择信号印迹被称为温和选择信号[20]。然而,目前该类检测统计量的报道仍然较少,且无法区分温和选择信号与经典选择信号。因此,可以预见在将来一段时间内构建灵敏程度更高、能够区分经典与温和选择信号的检测方法将会成为选择信号方法研究的热点。与此同时,随着基因组、转录组、蛋白组等多组学数据在畜禽研究中的应用,如何利用多组学信息更加全面准确地揭示基因组选择信号也已成为目前研究的又一个重要方向。此外,基因分型成本的降低与数据共享机制的开启,使得等位基因频率估计能够通过大样本数据获得更高的估计准确性,进而提高选择信号检测的准确性。但是,伴随而来的基因组大样本、大数据,对于目前选择信号方法的计算负载也提出了更高的要求。

参考文献
[1] QANBARI S, SIMIANER H. Mapping signatures of positive selection in the genome of livestock[J]. Livest Sci, 2014, 166: 133–143. DOI: 10.1016/j.livsci.2014.05.003
[2] LARSON G, PIPERNO D R, ALLABY R G, et al. Current perspectives and the future of domestication studies[J]. Proc Natl Acad Sci U S A, 2014, 111(17): 6139–6146. DOI: 10.1073/pnas.1323964111
[3] ANDERSSON L. How selective sweeps in domestic animals provide new insight into biological mechanisms[J]. J Intern Med, 2012, 271(1): 1–14.
[4] 潘章源, 贺小云, 王翔宇, 等. 家养动物选择信号研究进展[J]. 遗传, 2016, 38(12): 1069–1080.
PAN Z Y, HE X Y, WANG X Y, et al. Selection signatures in domesticated animals[J]. Hereditas (Beijing), 2016, 38(12): 1069–1080. (in Chinese)
[5] SUZUKI Y. Statistical methods for detecting natural selection from genomic data[J]. Genes Genet Syst, 2010, 85(6): 359–376.
[6] BISWAS S, AKEY J M. Genomic insights into positive selection[J]. Trends Genet, 2006, 22(8): 437–446. DOI: 10.1016/j.tig.2006.06.005
[7] SABETI P C, VARILLY P, FRY B, et al. Genome-wide detection and characterization of positive selection in human populations[J]. Nature, 2007, 449(7164): 913–918.
[8] PENNINGS P S, HERMISSON J. Soft sweeps Ⅱ-molecular population genetics of adaptation from recurrent mutation or migration[J]. Mol Biol Evol, 2006, 23(5): 1076–1084. DOI: 10.1093/molbev/msj117
[9] DE SIMONI GOUVEIA J J, DA SILVA M V G B, PAIVA S R, et al. Identification of selection signatures in livestock species[J]. Genet Mol Biol, 2014, 37(2): 330–342.
[10] 刘真, 王慧华, 刘瑞凿, 等. 不同尾型绵羊全基因组选择信号检测[J]. 畜牧兽医学报, 2015, 46(10): 1721–1732.
LIU Z, WANG H H, LIU R Z, et al. Genome-wide detection of selection signatures of distinct tail types in sheep populations[J]. Acta Veterinaria et Zootechnica Sinica, 2015, 46(10): 1721–1732. (in Chinese)
[11] 王光凯, 曾滔, 王慧华, 等. 苏尼特羊全基因组选择信号检测[J]. 中国农业科学, 2014, 47(6): 1190–1199.
WANG G K, ZENG T, WANG H H, et al. Genome-wide detection of selection signature on sunite sheep[J]. Scientia Agricultura Sinica, 2014, 47(6): 1190–1199. (in Chinese)
[12] 马云龙, 张勤, 丁向东. 利用高密度SNP检测不同猪品种间X染色体选择信号[J]. 遗传, 2012, 34(10): 1251–1260.
MA Y L, ZHANG Q, DING X D. Detecting selection signatures on X chromosome in pig through high density SNPs[J]. Hereditas (Beijing), 2012, 34(10): 1251–1260. (in Chinese)
[13] HERMISSON J, PENNINGS P S. Soft sweeps:Molecular population genetics of adaptation from standing genetic variation[J]. Genetics, 2005, 169(4): 2335–2352. DOI: 10.1534/genetics.104.036947
[14] BARRETT R D H, SCHLUTER D. Adaptation from standing genetic variation[J]. Trends Ecol Evol, 2008, 23(1): 38–44.
[15] NIELSEN R. Molecular signatures of natural selection[J]. Annu Rev Genet, 2005, 39: 197–218. DOI: 10.1146/annurev.genet.39.073003.112420
[16] LOHMUELLER K E, BUSTAMANTE C D, CLARK A G. Detecting directional selection in the presence of recent admixture in African-Americans[J]. Genetics, 2011, 187(3): 823–835.
[17] PERSI E, WOLF Y I, KOONIN E V. Positive and strongly relaxed purifying selection drive the evolution of repeats in proteins[J]. Nat Commun, 2016, 7: 13570.
[18] FIJARCZYK A, BABIK W. Detecting balancing selection in genomes:limits and prospects[J]. Mol Ecol, 2015, 24(14): 3529–3545. DOI: 10.1111/mec.13226
[19] QANBARI S, SEIDEL M, STROM T M, et al. Parallel selection revealed by population sequencing in chicken[J]. Genome Biol Evol, 2015, 7(12): 3299–3306.
[20] SHENG Z Y, PETTERSSON M E, HONAKER C F, et al. Standing genetic variation as a major contributor to adaptation in the Virginia chicken lines selection experiment[J]. Genome Biol, 2015, 16: 219. DOI: 10.1186/s13059-015-0785-z
[21] ZHU L, BUSTAMANTE C D. A composite-likelihood approach for detecting directional selection from DNA sequence data[J]. Genetics, 2005, 170(3): 1411–1421. DOI: 10.1534/genetics.104.035097
[22] TAJIMA F. Statistical method for testing the neutral mutation hypothesis by DNA polymorphism[J]. Genetics, 1989, 123(3): 585–595.
[23] NIELSEN R, WILLIAMSON S, KIM Y, et al. Genomic scans for selective sweeps using SNP data[J]. Genome Res, 2005, 15(11): 1566–1575.
[24] RUBIN C J, ZODY M C, ERIKSSON J, et al. Whole-genome resequencing reveals loci under selection during chicken domestication[J]. Nature, 2010, 464(7288): 587–591.
[25] MA Y, DING X, QANBARI S, et al. Properties of different selection signature statistics and a new strategy for combining them[J]. Heredity, 2015, 115(5): 426–436. DOI: 10.1038/hdy.2015.42
[26] SABETI P C, REICH D E, HIGGINS J M, et al. Detecting recent positive selection in the human genome from haplotype structure[J]. Nature, 2002, 419(6909): 832–837. DOI: 10.1038/nature01140
[27] VOIGHT B F, KUDARAVALLI S, WEN X Q, et al. A map of recent positive selection in the human genome[J]. PLoS Biol, 2006, 4(3): e72. DOI: 10.1371/journal.pbio.0040072
[28] ALACHIOTIS N, PAVLIDIS P. Scalable linkage-disequilibrium-based selective sweep detection:a performance guide[J]. Gigascience, 2016, 5: 7.
[29] FERRER-ADMETLLA A, LIANG M, KORNELIUSSEN T, et al. On detecting incomplete soft or hard selective sweeps using haplotype structure[J]. Mol Biol Evol, 2014, 31(5): 1275–1291.
[30] LEWONTIN R C, KRAKAUER J. Distribution of gene frequency as a test of the theory of the selective neutrality of polymorphisms[J]. Genetics, 1973, 74(1): 175–195.
[31] WRIGHT S. The genetical structure of populations[J]. Ann Eugen, 1949, 15(1): 323–354. DOI: 10.1111/j.1469-1809.1949.tb02451.x
[32] WEIR B S, COCKERHAM C C. Estimating F-statistics for the analysis of population structure[J]. Evolution, 1984, 38(6): 1358–1370.
[33] AKEY J M, ZHANG G, ZHANG K, et al. Interrogating a high-density SNP map for signatures of natural selection[J]. Genome Res, 2002, 12(12): 1805–1814.
[34] GIANOLA D, SIMIANER H, QANBARI S. A two-step method for detecting selection signatures using genetic markers[J]. Genet Res, 2010, 92(2): 141–155.
[35] CHEN H, PATTERSON N, REICH D. Population differentiation as a test for selective sweeps[J]. Genome Res, 2010, 20(3): 393–402. DOI: 10.1101/gr.100545.109
[36] FARIELLO M I, BOITARD S, NAYA H, et al. Detecting signatures of selection through haplotype differentiation among hierarchically structured populations[J]. Genetics, 2013, 193(3): 929–941.
[37] AI H S, FANG X D, YANG B, et al. Adaptation and possible ancient interspecies introgression in pigs identified by whole-genome sequencing[J]. Nat Genet, 2015, 47(3): 217–225.
[38] RACIMO F. Testing for ancient selection using cross-population allele frequency differentiation[J]. Genetics, 2016, 202(2): 733–750. DOI: 10.1534/genetics.115.178095
[39] VATSIOU A I, BAZIN E, GAGGIOTTI O E. Detection of selective sweeps in structured populations:a comparison of recent methods[J]. Mol Ecol, 2016, 25(1): 89–103.
[40] GROSSMAN S R, SHYLAKHTER I, KARLSSON E K, et al. A composite of multiple signals distinguishes causal variants in regions of positive selection[J]. Science, 2010, 327(5967): 883–886.
[41] UTSUNOMIYA Y T, O'BRIEN A M P, SONSTEGARD T S, et al. Detecting loci under recent positive selection in dairy and beef cattle by combining different genome-wide scan methods[J]. PLoS One, 2013, 8(5): e64280.
[42] RANDHAWA I A S, KHATKAR M S, THOMSON P C, et al. Composite selection signals can localize the trait specific genomic regions in multi-breed populations of cattle and sheep[J]. BMC Genet, 2014, 15: 34.
[43] KINGMAN J F C. The coalescent[J]. Stoch Processes Their Appl, 1982, 13(2): 235–248.
[44] KINGMAN J F C. On the genealogy of large populations[J]. J Appl Probab, 1982, 19(A): 27–43.
[45] KINGMAN J F. Origins of the coalescent.1974-1982[J]. Genetics, 2000, 156(4): 1461–1463.
[46] SIMIANER H, MA Y L, QANBARI S. Statistical problems in livestock population genomics[C]//Proceedings of the 10th World Congress on Genetics Applied to Livestock Production. Vancouver, BC, Canada: American Society of Animal Science, 2014.
[47] HUDSON R R. Generating samples under a Wright-Fisher neutral model of genetic variation[J]. Bioinformatics, 2002, 18(2): 337–338.
[48] EWING G, HERMISSON J. MSMS:a coalescent simulation program including recombination, demographic structure and selection at a single locus[J]. Bioinformatics, 2010, 26(16): 2064–2065.
[49] PENG B, KIMMEL M. simuPOP:a forward-time population genetics simulation environment[J]. Bioinformatics, 2005, 21(18): 3686–3687. DOI: 10.1093/bioinformatics/bti584
[50] QANBARI S, PAUSCH H, JANSEN S, et al. Classic selective sweeps revealed by massive sequencing in cattle[J]. PLoS Genet, 2014, 10(2): e1004148. DOI: 10.1371/journal.pgen.1004148
[51] MA Y L, WEI J L, ZHANG Q, et al. A genome scan for selection signatures in pigs[J]. PLoS One, 2015, 10(3): e0116850.
[52] MEYER R S, CHOI J Y, SANCHES M, et al. Domestication history and geographical adaptation inferred from a SNP map of African rice[J]. Nat Genet, 2016, 48(9): 1083–1088. DOI: 10.1038/ng.3633
[53] EVANS L M, SLAVOV G T, RODGERS-MELNICK E, et al. Population genomics of Populus trichocarpa identifies signatures of selection and adaptive trait associations[J]. Nat Genet, 2014, 46(10): 1089–1096. DOI: 10.1038/ng.3075
[54] CARNEIRO M, RUBIN C J, DI PALMA F, et al. Rabbit genome analysis reveals a polygenic basis for phenotypic change during domestication[J]. Science, 2014, 345(6200): 1074–1079. DOI: 10.1126/science.1253714
[55] AMARAL A J, FERRETTI L, MEGENS H J, et al. Genome-wide footprints of pig domestication and selection revealed through massive parallel sequencing of pooled DNA[J]. PLoS One, 2011, 6(4): e14782. DOI: 10.1371/journal.pone.0014782
[56] QANBARI S, STROM T M, HABERER G, et al. A high resolution genome-wide scan for significant selective sweeps:an application to pooled sequence data in laying chickens[J]. PLoS One, 2012, 7(11): e49525.
[57] LAAYOUNI H, MONTANUCCI L, SIKORA M, et al. Similarity in recombination rate estimates highly correlates with genetic differentiation in humans[J]. PLoS One, 2011, 6(3): e17913.
[58] BERSAGLIERI T, SABETI P C, PATTERSON N, et al. Genetic signatures of strong recent positive selection at the lactase gene[J]. Am J Hum Genet, 2004, 74(6): 1111–1120.
[59] WANG H L, ZHU Z M, WANG H, et al. Molecular characterization and association analysis of porcine CA3[J]. Cytogenet Genome Res, 2006, 115(2): 129–133.