畜牧兽医学报  2017, Vol. 48 Issue (7): 1181-1190. DOI: 10.11843/j.issn.0366-6964.2017.07.002    PDF    
尾分析法在不同规模群体中开展全基因组关联研究
武群清1,2, 张龙超2, 黄生强1,3, 王立贤2     
1. 湖南农业大学 动物科学技术学院, 长沙 410128;
2. 中国农业科学院北京畜牧兽医研究所, 北京 100193;
3. 湖南省畜禽安全生产协同创新中心, 长沙 410128
摘要:旨在将尾分析法与全基因组关联分析相结合,初步确定两尾选择的标准。首先,对样本量为2 000、1 500、1 000、500的群体进行全基因组关联分析(GWAS),探索群体规模大小对GWAS结果的影响,然后对各样本量两尾的20%、15%、12%、10%、8%、5%进行GWAS,探索两尾比例的大小对GWAS结果的影响。研究结果表明,检测出的显著关联SNP数目随群体规模及两尾比例的减小而减少。初步确定两尾选择标准为:遗传力为0.38左右的性状,样本量为2 000、1 500、1 000、500,两尾选择比例分别为8%、10%、10%、20%;遗传力为0.50左右的性状,样本量为2 000、1 500、1 000、500,两尾选择比例分别为5%、5%、10%、15%。以此标准为基础进行GWAS,既能有效检测出最显著SNP位点或区间,又能最大程度地降低研究成本,提高研究效率。
关键词尾分析法    全基因组关联分析    遗传力    选择比例    
A Genome-wide Association Study of Different Size Populations Based on Tail Analysis
WU Qun-qing1,2, ZHANG Long-chao2, HUANG Sheng-qiang1,3, WANG Li-xian2     
1. College of Animal Science and Technology, Hunan Agricultural University, Changsha 410128, China;
2. Institute of Animal Science, Chinese Academy of Agricultural Sciences, Beijing 100193, China;
3. Hunan Co-innovation Center of Animal Production Safety, Changsha 410128, China
Abstract: Tail analysis and genome-wide association studies(GWAS) were combined in this study to determine preliminary two tails selection criterions. A total of 2 000, 1 500, 1 000 and 500 samples and 20%, 15%, 12%, 10%, 8%, 5% of two tails were used to run GWAS to estimate the effects of the population size on GWAS and the effect of the proportion of two tails on GWAS, respectively. The results showed that the number of significant SNPs decreased with the reducing population size and the proportion of two tails. The preliminary selection criterions were:traits with heritability of about 0.38, the proportion of two tails of 8%, 10%, 10% and 20% from 2 000, 1 500, 1 000 and 500 samples, which were appropriate for two tails population for running GWAS, respectively. Further, the traits with heritability of about 0.50, the proportion of two tails of 5%, 5%, 10% and 15% from 2 000, 1 500, 1 000 and 500 samples were appropriate for two tails population for running GWAS, respectively. The present preliminary two tails selection criterions from populations with various sizes to run GWAS could detect significant SNPs effectively and also provide a strategy of reducing the cost of GWAS.
Key words: tail analysis     genome-wide association study     heritability     selection proportion    

全基因组关联分析(Genome-wide association study,GWAS)于1996年由N. Risch等首先提出,是在全基因组水平上对复杂性状进行关联分析[1-2],它以连锁不平衡为基础,通过高通量测序和分型技术得到大量遗传标记,利用生物统计学方法和工具在全基因组水平上筛选出与复杂性状表型变异相关联的遗传变异。筛选出的显著位点或主效基因可以运用到分子辅助选择育种中去,为复杂性状的遗传结构和品种的改良提供理论基础[3]。第一个被报道的GWAS结果,是R. J. Klein等[4]在2005年对与人年龄相关的视网膜黄色雀斑进行的GWAS。随后,GWAS被广泛应用到植物(如小麦、玉米、水稻等)[5-7]、畜禽(猪、牛、羊、鸡等)[8-11]等领域,为遗传育种的发展做出了巨大的贡献。然而,GWAS需要大量的样本及遗传标记,因此测序、分型成本巨大,在一定程度上限制了全基因组关联分析的应用及发展。

尾分析法是研究性状表型值位于两极端的个体的基因型标记。所研究的性状既可以是质量性状也可以是数量性状,当数量性状高表型值和低表型值之间存在分子标记基因频率的显著性差异时表示标记与性状关联[12]。在针对单个性状的标记QTL连锁研究时,如果只对抽样群体中的高、低表型值的个体进行有选择的基因型分析,可以减少基因型标记的个体数[13]。E. S. Lander等[14]证实,对于连续变异的性状,当用群体中性状表型值位于两尾的个体进行分析时,能显著提高效率,并将此方法称为选择基因型分析。标记检测方法分为标准选择基因型分析和选择DNA池分析,标准选择基因型分析是针对两尾的单个个体进行,选择DNA池分析则是将每尾中个体DNA混合后进行分析[15]

因此,将尾分析和GWAS相结合,选择合适的两尾群体进行GWAS,能够降低研究成本,提高效率。然而对于不同规模群体,选择两尾比例的多少合适,相关报道甚少。本研究对不同规模群体进行GWAS,设计两尾比例梯度,探索其结果的变化规律,以期初步确定两尾比例的选择标准,为之后的相关研究提供参考。

1 材料与方法 1.1 数据来源

本研究所使用的基因型及表型数据均来源于第16届QTL-MAS公共数据集(下载地址http://qtl-mas-2012.kassiopeagroup.com),该数据集包含4 080个个体,共5个世代(G0-G4),3个性状(t1-t3),其中G1-G3各为1 000个,且都为雌性个体。基因组长度为499.75 Mb,包括5条相同长度的染色体,每条染色体上均匀分布2 000个SNPs,共10 000个。本研究共选取了2 000个个体(G2-G3各1 000个)和两个性状即性状2(t2)、性状3(t3),其遗传力分别为0.38和0.50[16]

1.2 抽样及两尾筛选

本研究共设计4个不同规模的群体,样本量分别为2 000、1 500、1 000、500,并从中选取两尾的20%、15%、12%、10%、8%、5%,其中样本量为1 500、1 000、500的群体均从样本量为2 000的群体随机抽样得来,并使其服从正态分布,对不同规模群体及两尾的表型进行描述性统计分析,通过R语言的shapiro.test()函数对不同群体进行正态性检验(W检验)。不同群体及两尾表型数据描述性统计分析通过excel实现,抽样、数据处理及分析和格式整理等均用R软件完成。

1.3 全基因组关联分析

运用软件TASSEL 5.0中的混合线性模型(P+K)进行全基因组关联分析[17]。采用Bonfe-rroni方法进行多重假设检验P值的校正,以a/n为基因组水平显著性阈值,以a/m为染色体水平显著阈值[18](a为显著水平,本研究中a设为0.1,n为基因组内标记数,m为染色体内标记数,去掉最小等位基因频率小于0.05的位点后,n≈9 000,m≈1 800)。由于染色体长度相同,且标记均匀分布,因此基因组水平显著阈值约为1.11E-05,染色体水平显著阈值约为5.56E-05。

2 结果 2.1 表型数据基本统计学分析

不同样本量及其两尾的基本统计分析见表 1。样本数为2 000、1 500、1 000、500时,性状2的均值分别为-0.058、-0.104、0.154、-0.001,标准差分别为9.546、9.359、9.881、9.391,最大值分别为32.515、27.974、27.336、26.917,最小值分别为-32.234、-32.234、-32.234、-28.792,性状3的均值分别为0、-0.001、0.001、0.001,标准差分别为0.025、0.025、0.025、0.026,最大值分别为0.085、0.085、0.085、0.085,最小值分别为-0.096、-0.096、-0.096、-0.096。

表 1 性状2(t2) 和性状3(t3) 的描述性统计分析 Table 1 The descriptive statistics of the trait2(t2) and the trait3(t3)
2.2 正态性检验

用R语言的shapiro.test()函数对不同样本量整体进行正态性检验(表 2),W检验的P值均大于0.05,表明抽样数据均符合或近似符合正态分布,可以用于后续分析。

表 2 表型数据的正态性检验 Table 2 The normal test of phenotype data
2.3 全基因组关联分析

性状2的全基因组关联分析结果见表 3,性状3的全基因组关联分析结果见表 4。根据样本量为2 000的全基因组关联分析结果,4号染色体上5个SNPs位点(6499、6506、6501、6498、6469),1号染色体上3个SNPs位点(293、295、296) 和3号染色体上1个SNP位点(4044) 与性状2显著相关,位置分别为23.40~25.25、14.60~14.75和2.15 Mb附近;1号染色体上5个SNPs位点(1682、1683、1699、1697、1685),2号染色体上2个SNPs位点(3585、3584),3号染色体上1个SNPs位点(4044) 与性状3显著相关,位置为分别为84.05~84.90、79.15~79.20和2.15 Mb附近。

表 3 性状2(t2) 全基因组关联分析结果 Table 3 The genome-wide association study result of the trait2(t2)
表 4 性状3(t3) 全基因组关联分析结果 Table 4 The genome-wide association study result of the trait3(t3)

表 3表 4可知,显著位点的数目与群体规模及两尾比例大小有关,一般来说,随着群体规模的减小,显著SNP的数目减少,同一位点的P值会升高;随着两尾选择比例的降低,显著SNP位点的数目也减少,同一位点的P值大部分升高。其中最显著的位点通常会保留下来。

根据能否发现最显著的位点或区间,初步确定两尾选择标准为:遗传力为0.38左右的性状,样本量为2 000、1 500、1 000、500,两尾选择比例分别为8%、10%、10%、20%;遗传力为0.50左右的性状,样本量为2 000、1 500、1 000、500,两尾选择比例分别为5%、5%、10%、15%。

3 讨论

目前,尾分析法在GWAS中的应用主要是基于DNA-pooling的人类疾病研究。陈伟以DNA-pooling为基础,对中国人群高度近视患者和健康对照进行GWAS,确定PDE4B基因内含子上的rs10889602为候选易感位点[19]。徐颜美应用DNA-pooling技术对南昌大学第二附属医院200例原发免疫性血小板减少症患者和200例体检健康者进行GWAS,鉴定出4个原发免疫性血小板减少症易感位点[20]。R. Abraham等[21]运用DNA-pooling技术对1 082例阿尔兹海默症患者和1 039个对照组进行GWAS,找到了已知的与阿尔兹海默症关联的基因APOE,并发现了新的阿尔兹海默症候选基因LRAT。J. Y. Fowdar等[22]对409例澳大利亚人原发性高血压患者和409个对照组进行DNA-pooling GWAS,结果表明ASGR1、NFKB1、GLI2基因可能与性状相关。选择DNA池分析法只能获得等位基因频率,而标准选择基因型分析能检测个体标记的基因型,结果更可靠[15]

本研究利用第16届QTL-MAS公共数据集,对不同规模群体设计两尾比例梯度,进行基于标准选择基因型分析的GWAS。根据2 000个个体的全基因组关联分析结果,与性状2显著相关的SNP位点在4、1、3号染色体上,位置为23.40~25.25、14.60~14.75和2.15 Mb附近;性状3显著相关的SNP位点在1、2、3号染色体上位置为84.05~84.90、79.15~79.20和2.15 Mb附近。这与G. Minozzi等[16]对3 000个个体的全基因组关联分析结果基本一致。M. I.Vales等[23]研究发现,在对数量性状QTL定位时,所检测到的QTL数目与群体大小有关,群体越小能检测到的QTL就越少。有限的群体只能检测到主效QTL,扩大群体才能检测到微效QTL。本研究结果表明,显著SNP的数目与群体规模和两尾比例的大小有关,一般来说,随着群体规模及两尾比例的减小,显著SNP的数目会减少,同一位点的P值会升高,但最显著的SNP位点通常能被检测出来,这与前人研究结果一致。当用两尾分析的GWAS结果中达到染色体水平显著的SNP位点作为候选位点,可适当增加显著SNP的检出比例,但在一定程度上提高了假阳性的比率。在实际的GWAS研究中,样本含量应大于1 000,样本含量小不仅检测效率较低,而且结果可信度也较低[23-24];对于性状的选择应根据3个原则(性状遗传力高、性状优于疾病、测量简单和准确度高),其中第一个就是尽量选择高遗传力的性状,对低遗传力性状进行GWAS,会降低研究效果,显著SNPs能解释的遗传变异相对较小[25-26]。李娜[27]对500头左右的大白×民猪F2资源群体肌纤维面积和肌内脂肪进行了遗传力估计和GWAS,肌纤维面积和肌内脂肪的遗传力分别为0.36和0.52,通过GWAS最终确定与肌纤维面积和肌内脂肪显著相关的SNPs分别为18和35个。郭家中[24]通过混合线性模型,对2 061头奶牛的棱角形(遗传力为0.30) 和3 807头奶牛泌乳母牛的产犊循环能力(遗传力为0.039) 进行研究,结果发现,与棱角形显著相关的SNPs为22,而与泌乳母牛产犊循环能力显著相关的SNPs只有8个。本试验对样本量为2 000,遗传力分别为0.36和0.50的性状进行GWAS,被检测的显著SNPs分别为9和8个,与李娜和郭家中[24, 27]研究结果有所不同,可能是因为GWAS结果不仅受群体规模和遗传力大小的影响,还与研究方法、标记密度和群体本身的遗传结构等众多因素有关[28]。根据能否发现最显著的位点或主效QTL,初步确定两尾选择标准为:遗传力为0.38左右的性状,样本量为2 000、1 500、1 000、500,两尾选择比例分别为8%、10%、10%、20%;遗传力为0.50左右的性状,样本量为2 000、1 500、1 000、500,两尾选择比例分别为5%、5%、10%、15%。

4 结论

以尾分析法为基础进行GWAS,检测出的显著SNP位点数目与群体规模及两尾比例的大小有关。初步确定两尾选择标准为:遗传力为0.38左右的性状,样本量为2 000、1 500、1 000、500,两尾选择比例分别为8%、10%、10%、20%;遗传力为0.50左右的性状,样本量为2 000、1 500、1 000、500,两尾选择比例分别为5%、5%、10%、15%。以此标准为基础进行GWAS,既能有效地检测出最显著SNP位点及主效QTL,又能显著地降低研究成本,提高研究效率。

参考文献
[1] HIRSCHHORN J N, DALY M J. Genome-wide association studies for common diseases and complex traits[J]. Nat Rev Genet, 2005, 6(2): 95–108.
[2] RISCH N, MERIKANGAS K. The future of genetic studies of complex human diseases[J]. Science, 1996, 273(5281): 1516–1517. DOI: 10.1126/science.273.5281.1516
[3] 段忠取, 朱军. 全基因组关联分析研究进展[J]. 浙江大学学报:农业与生命科学版, 2015, 41(4): 385–393.
DUAN Z Q, ZHU J. Research progress of genome-wide association study[J]. Journal of Zhejiang University:Agriculture & Life Sciences, 2015, 41(4): 385–393. (in Chinese)
[4] KLEIN R J, ZEISS C, CHEW E Y, et al. Complement factor H polymorphism in age-related macular degeneration[J]. Science, 2005, 308(5720): 385–389. DOI: 10.1126/science.1109557
[5] 陈广凤, 陈建省, 田纪春. 小麦株高相关性状与SNP标记全基因组关联分析[J]. 作物学报, 2015, 41(10): 1500–1509.
CHEN G F, CHEN J S, TIAN J C. Genome-wide association analysis between SNP markers and plant height related traits in wheat[J]. Acta Agronomica Sinica, 2015, 41(10): 1500–1509. (in Chinese)
[6] ZHAO K Y, TUNG C W, EIZENGA G C, et al. Genome-wide association mapping reveals a rich genetic architecture of complex traits in Oryza sativa[J]. Nat Commun, 2011, 2: 467. DOI: 10.1038/ncomms1467
[7] WANG M, YAN J B, ZHAO J R, et al. Genome-wide association study (GWAS) of resistance to head smut in maize[J]. Plant Sci, 2012, 196: 125–131. DOI: 10.1016/j.plantsci.2012.08.004
[8] 兰蓉, 朱兰, 姚新荣, 等. 山羊产羔数全基因组关联分析[J]. 畜牧兽医学报, 2015, 46(4): 549–554.
LAN R, ZHU L, YAO X R, et al. Genome-wide association study of lambing number in goat[J]. Acta Veterinaria et Zootechnica Sinica, 2015, 46(4): 549–554. (in Chinese)
[9] 孙艳发, 刘冉冉, 郑麦青, 等. 鸡胫长和胫围的全基因组关联分析[J]. 畜牧兽医学报, 2013, 44(3): 358–365.
SUN Y F, LIU R R, ZHENG M Q, et al. Genome-wide association study on shank length and shank girth in chicken[J]. Acta Veterinaria et Zootechnica Sinica, 2013, 44(3): 358–365. (in Chinese)
[10] 刘澳星, 郭刚, 王雅春, 等. 中国荷斯坦牛初产日龄遗传评估及全基因组关联分析[J]. 畜牧兽医学报, 2015, 46(3): 373–381.
LIU A X, GUO G, WANG Y C, et al. Genetic analysis and genome wide association studies for age at first calving in chinese holsteins[J]. Acta Veterinaria et Zootechnica Sinica, 2015, 46(3): 373–381. (in Chinese)
[11] 赵谦, 浦亚斌, 关伟军, 等. 猪重要性状全基因组关联分析的研究进展[J]. 畜牧兽医学报, 2015, 44(6): 873–881.
ZHAO Q, PU Y B, GUAN W J, et al. Research progress of genome-wide association studies for important traits in pig[J]. Acta Veterinaria et Zootechnica Sinica, 2015, 44(6): 873–881. (in Chinese)
[12] 王慰慰, 杜智恒, 白秀娟. 尾分析法检测北极狐自咬症关联的RAPD标记[J]. 动物学杂志, 2010, 45(3): 154–158.
WANG W W, DU Z H, BAI X J. Detection of the linkage between RAPD markers and the self-biting syndrome in arctic fox by tail analysis method[J]. Chinese Journal of Zoology, 2010, 45(3): 154–158. (in Chinese)
[13] LEBOWITZ R J, SOLLER M, BECKMANN J S. Trait-based analyses for the detection of linkage between marker loci and quantitative trait loci in crosses between inbred lines[J]. Theor Applied Genet, 1987, 73(4): 556–562. DOI: 10.1007/BF00289194
[14] LANDER E S, BOTSTEIN D. Mapping mendelian factors underlying quantitative traits using RFLP linkage maps[J]. Genetics, 1989, 121(1): 185–199.
[15] DARVASI A, SOLLER M. Selective DNA pooling for determination of linkage between a molecular marker and a quantitative trait locus[J]. Genetics, 1994, 138(4): 1365–1373.
[16] MINOZZI G, PEDRETTI A, BIFFANI S, et al. Genome wide association analysis of the 16th QTL-MAS workshop dataset using the random forest machine learning approach[J]. BMC Proc, 2014, 8(S5): S4.
[17] BRADBURY P J, ZHANG Z W, KROON D E, et al. TASSEL:software for association mapping of complex traits in diverse samples[J]. Bioinformatics, 2007, 23(19): 2633–2635. DOI: 10.1093/bioinformatics/btm308
[18] NICODEMUS K K, LIU W L, CHASE G A, et al. Comparison of type I error for multiple test corrections in large single-nucleotide polymorphism studies using principal components versus haplotype blocking algorithms[J]. BMC Genet, 2005, 6(S1): S78.
[19] 陈伟. 应用全基因组关联分析定位高度近视易感基因和应用外显子组测序分析大动脉转位致病基因[D]. 北京: 中国科学院, 2011.
CHEN W. Application of genome-wide association study in mapping of susceptibility genes in high myopia and exome sequencing in identifying genes responsible for transposition of great arteries[D]. Beijing:Chinese Academy of Sciences, 2011. (in Chinese)
[20] 徐颜美. 中国汉族人群原发免疫性血小板减少症的全基因组关联研究[D]. 南昌: 南昌大学, 2014.
XU Y M. A genome-wide association study for primary immune thrombocytopenia in China Han population[D]. Nanchang:Nanchang University, 2014. (in Chinese) http://www.doc88.com/p-6611237795386.html
[21] ABRAHAM R, MOSKVINA V, SIMS R, et al. A genome-wide association study for late-onset Alzheimer's disease using DNA pooling[J]. BMC Med Genomic s, 2008, 1: 44. DOI: 10.1186/1755-8794-1-44
[22] FOWDAR J Y, GREALY R, LU Y, et al. A genome-wide association study of essential hypertension in an Australian population using a DNA pooling approach[J]. Mol Genet Genomics, 2017, 292(2): 307–324. DOI: 10.1007/s00438-016-1274-0
[23] VALES M I, SCHÖN C C, CAPETTINI F, et al. Effect of population size on the estimation of QTL:a test using resistance to barley stripe rust[J]. Theor Appl Genet, 2005, 111(7): 1260–1270. DOI: 10.1007/s00122-005-0043-y
[24] 郭家中. 奶牛重要经济性状的全基因组关联分析[D]. 杨凌: 西北农林科技大学, 2013.
GUO J Z. Genome-wide association studies for economically important traits in dairy cattle[D]. Yangling:Northwest A&F University, 2013. (in Chinese)
[25] NEWTON-CHEH C, HIRSCHHORN J N. Genetic association studies of complex traits:design and analysis issues[J]. Mutat Res, 2005, 573(1-2): 54–69. DOI: 10.1016/j.mrfmmm.2005.01.006
[26] 严卫丽. 复杂疾病全基因组关联研究进展-研究设计和遗传标记[J]. 遗传, 2008, 30(4): 400–406.
YAN W L. Genome-wide association study on complex diseases:study design and genetic markers[J]. Hereditas (Beijing), 2008, 30(4): 400–406. (in Chinese)
[27] 李娜. 基于GWAS的猪肉品质性状候选基因研究[D]. 北京: 中国农业大学, 2016.
LI N. Genome-wide association studies for pig meat traits and exploration of major genes[D]. Beijing:China Agricultural University, 2016. (in Chinese)
[28] HEFFNER E L, SORRELLS M E, JANNINK J L. Genomic selection for crop improvement[J]. Crop Sci, 2009, 49(1): 1–12. DOI: 10.2135/cropsci2008.08.0512