畜牧兽医学报  2018, Vol. 49 Issue (7): 1354-1365. DOI: 10.11843/j.issn.0366-6964.2018.07.004    PDF    
张统雨, 樊红樱, 朱才业, 刘家鑫, 邓天宇, 杜立新, 王立贤, 赵福平     
中国农业科学院北京畜牧兽医研究所, 北京 100193
摘要:旨在挖掘控制绵羊尾型的候选基因,揭示绵羊尾部脂肪沉积机理。本研究利用呼伦贝尔羊两个不同尾型品系的288个个体,其中大尾羊142只和小尾羊146只,基于Illumina Ovine SNP 600K SNP芯片数据计算全基因组单点FST值。通过三次光滑样条估计方法确定可变窗口大小和数量,构建W统计量并进行统计检验,鉴定选择区段和注释相关基因。结果,在基因组范围内共确定了23 144个可变窗口,其中区间最大的窗口位于chr12:35 241 750~43 798 950 bp处,其大小为8.56 Mb,并包含775个SNPs。经检测发现,27个窗口达到极显著水平(P < 0.001),并鉴定了337个候选基因,其中22个是与已发现的脂肪代谢相关的基因。通过GO分析发现,这些候选基因主要富集在细胞内组成成分、有机氮化合物代谢过程以及小分子代谢过程等条目。通过可变窗口FST法能够有效检测到受选择的基因与绵羊尾部脂肪沉积相关。这些基因可以作为绵羊尾型选育的候选基因,为培育短尾绵羊提供重要依据。
关键词群体分化指数    可变窗口    呼伦贝尔羊    尾型    脂肪沉积    
Identification of Candidate Genes Involved in Fat Deposition in Hulun Buir Sheep Tails Using FST within the Variable Window Sizes
ZHANG Tong-yu, FAN Hong-ying, ZHU Cai-ye, LIU Jia-xin, DENG Tian-yu, DU Li-xin, WANG Li-xian, ZHAO Fu-ping     
Institute of Animal Science, Chinese Academy of Agricultural Sciences, Beijing 100193, China
Abstract: The aims of this study were to reveal the genetic mechanism of fat deposition in the tail of sheep, and to explore the candidate genes involved in sheep tail fat. A total of 288 individuals from two lines of Hulun Buir sheep with different tail types were used to identify candidate genes controlling different tail types of sheep. These individuals included 142 fat-tailed and 146 thin-tailed sheep. The whole-genome single locus FST values were calculated based on the Illumina Ovine 600K SNP genotype data. The cubic smoothing spline method was used to define the numbers and sizes of variable windows. A total of 23 144 variable windows were identified within the whole genome. The largest window with 775 SNPs was located at chr12:35 241 750-43 798 950 bp, with a size of 8.56 Mb. The W statistic was constructed to detect the windows with selection signature. Twenty-seven of variable windows reached extremely significant level(P < 0.001). After annotation, these windows harbored 337 candidate genes, of which 22 were related to the fat metabolism. Through GO analysis, these candidate genes were mainly enriched in the intracellular components, organonitrogen compound metabolic process and small molecule metabolic process. The FST method with variable windows was used to effectively identify candidate genes associated with fat deposition in the tail of sheep. These genes can be used to breed a new sheep breed with small size. The results will provide an important reference for breeding short-tailed sheep.
Key words: FST     variable window     Hulun Buir sheep     tail type     fat deposition    

中国地方绵羊品种根据尾型分为5类:长脂尾、短脂尾、短瘦尾、长瘦尾和脂臀尾[1]。将脂肪沉积在尾部这是绵羊独有的特性。尾部脂肪在逆境条件下(如寒冷等)提供身体能量所需,类似于骆驼的驼峰,属于适应性性状[2]。但是随着肥胖、心脑血管以及糖尿病的增加,人们更倾向于高蛋白和低脂肪的肉类[3]。另外,从饲养成本来看,生产1 kg脂肪所消耗的饲料可产生2 kg瘦肉[4],因此,尾脂沉积过多不利于产生经济效益。

不同尾型的绵羊品种是通过长期的人工选择和自然选择形成的,而选择也会在基因组上留下烙印,这就是选择信号(selection signature,SS)[5]。目前,选择信号检测方法很多[6],其中对两个及多个群体进行选择信号检测时比较经典的方法就是FST[7],该方法也常应用于羊的选择信号检测中[3, 8-13]。在现有文献资料中,对肥瘦尾性状之间的选择信号检测时[3, 11-13],都是将不同品种的羊简单的按照尾型划分为肥、瘦尾两类,这样就很难消除不同遗传背景对检测结果的影响。其实在中国地方品种中,呼伦贝尔羊(属于短脂尾绵羊品种)群体内存在明显的尾部大小差异,主要是因为该品种内存在两个品系[14],这为同一个品种内不同品系开展选择信号检测提供了一个理想的动物资源。

本研究使用Illumina Ovine 600K BeadChip高密度SNP芯片,针对呼伦贝尔羊不同品系利用可变窗口FST进行选择信号检测。旨在挖掘呼伦贝尔羊尾部脂肪沉积的候选基因,揭示影响绵羊尾部脂肪沉积基因,为培育短尾绵羊品种提供理论依据。

1 材料与方法 1.1 试验材料

在内蒙古呼伦贝尔草原的牧场中,从6月龄的呼伦贝尔羊群随机挑选2 000只绵羊,然后选出大尾和小尾各150只,并对活体绵羊进行尾部长度、尾部最宽处的长度和周长及体尺数据进行测量,对所选个体查找系谱信息,使用一次性含有EDTA抗凝的真空采血管进行颈静脉采血,-20 ℃冷冻保存,用于基因组DNA提取。

1.2 试验方法 1.2.1 基因型检测

首先利用血液基因组DNA提取试剂盒(天根生化科技有限公司)提取血液样品中的基因组DNA;定制Illumina Ovine SNP600K芯片,获得601 715个SNP分型数据;通过GenomeStudio软件进行数据删选以及SNP等位基因型频率的分析,利用PLINK软件[15]进行质量控制。质控的标准是:平均检出率大于0.95;平均最小等位基因频率大于0.02;剔除未定位的和性染色体上的SNPs位点。通过质控后,剩余577 401个SNPs,大尾羊142只,小尾羊146只。再利用Beagle软件[16]对缺失数据进行填充,用于后续的分析。

1.2.2 选择信号检测方法


$ {F_{ST}} = \frac{{MSP - MSG}}{{MSP + ({n_C} - 1)MSG}} $ (1)


$ MSG = \frac{1}{{\sum\nolimits_{i = 1}^1 {({n_i} - 1)} }}\sum\nolimits_{i = 1}^s {{n_i}{P_{{A_i}}}(1 - {P_{{A_i}}})} $ (2)


$ MSP = \frac{1}{{S - 1}}\sum\nolimits_{i = 1}^S {{n_i}{{({P_{{A_i}}} - {{\bar P}_A})}^2}} $ (3)


$ {n_C} = \frac{1}{{S - 1}}\left[ {\sum\nolimits_{i = 1}^S {{n_i}} - \frac{{\sum\nolimits_{i = 1}^S {n_i^2} }}{{\sum\nolimits_{i = 1}^S {{n_i}} }}} \right] $ (4)

上述各式中,i是总亚群数S的一个群体,i=1, 2, …, S;PAi是第i个亚群中SNP等位基因A的频率;ni是亚群体i的平均样本大小;PA是各群体中PA的加权平均值,即 ${{\bar P}_A} = \frac{{{n_i}{P_{{A_i}}}}}{{\sum\nolimits_{i = 1}^S {{n_i}} }}$


$ W = \frac{{\left( {\bar X - \mu } \right)}}{{\sqrt {{s^2}/n} }} $ (5)


1.2.3 候选基因的检测和注释

参照NCBI数据库(https://www.ncbi.nlm.nih.gov/)和CSIRO数据库(https://www.livestockgenomics.csiro.au/sheep/oar3.1.php)的Ovis aries 3.1基因组信息,对筛选出来的受选择位点进行基因注释。以选择信号发生区域核心SNP为中心,上下游各扩展1 000 kb为选择区段。将落在这个选择区段内的基因定义为选择信号的“候选基因”。

1.2.4 生物信息学分析

利用Gorilla[19](http://cbl-gorilla.cs.technion.ac.il/)进行分析,包括细胞组分(cellular component)、分子功能(molecular function)和生物学过程(biological process)分析。


2 结果 2.1 呼伦贝尔羊全基因组范围内可变窗口分布

通过三次光滑样条估计方法确定基因组范围内23 144个可变窗口。窗口包含的SNPs个数从1到775个,其中包含最多数目的SNP窗口位于chr12: 35 241 750~43 798 950 bp处,该窗口大小为8.56 Mb。图 1展示了窗口内SNP频数直方,其中包括≤30个SNPs的窗口数所占总窗口数的97.7%。

图 1 窗口内SNP频数直方图 Figure 1 Histogram of the SNPs frequency within windows
2.2 候选基因的确定

呼伦贝尔羊全基因组范围内的W统计量分布情况见图 2,以W统计量为11.02作为阈值,即P < 0.001,共检测出27个显著的基因区段。按照W统计量的大小列在表 1中,主要分布在1、2、3、6、7、11、14、15、20、21、22和24号染色体上,最显著的区段位于26号染色体上。

图 2 呼伦贝尔羊全基因组W统计量值分布 Figure 2 Genome-wide distribution of W-statistic values in Hulun Buir sheep
表 1 W统计量筛选的选择区段及候选基因 Table 1 Selected regions identified by W-statistic and annotated candidate genes

通过基因注释,在27个显著区段内共找到了337个候选基因(表 1)。其中最显著的区段Chr26: 0.00~0.11,找到了两个候选基因:ERICHIDLGAP2。ERICHI基因功能目前报道的比较少,而DLGAP2报道与神经元突触功能有关,是精神分裂症的易感基因[21]。通过数据库查找发现与脂代谢相关的基因只有22个(表 2)。

表 2 筛选出已报道与脂肪合成代谢相关的候选基因 Table 2 The candidate genes related to lipid metabolism in previous studies
2.3 基因富集分析

本研究通过在线工具Gorilla(http://cbl-gorilla.cs.technion.ac.il/),将FDR阈值设为0.001,对获得的337个候选基因进行基因的GO富集分析。分析结果见表 3,从表 3可以看出受到选择的基因主要集中在小分子代谢过程、有机氮化合物代谢过程等生物学过程。在细胞组分上主要集中在细胞内组成成分上,总共发现了197个基因,占总基因的58.46%,在所有富集条目中数量占比最多。而分子功能富集分析没有发现受选择基因。

表 3 选择区段内基因GO富集条目汇总 Table 3 Summary of enrichment analysis of GO terms for genes in selected regions
3 讨论 3.1 利用可变窗口FST值进行选择信号检测的优势


3.2 呼伦贝尔羊品系间差异分析


3.3 与前期研究结果的比较

与前期研究[3, 11-13]相比,本研究采用了不同的群体、试验设计、检测方法和极显著的判断标准(P < 0.001),所以并没有找到与前期研究完全重合的基因区段,但也找到了与前期研究临近的显著区段。Chr3: 94.05~94.21 Mb与Yuan等[11]研究所检测的区段Chr3: 93.33~93.98 Mb相距0.07 Mb;Chr22: 40.92~41.01 Mb与刘真等[3]在显著区段Chr22: 40.23~40.73 Mb相距0.19 Mb。此外,在Chr1: 140.59~140.69 Mb区段也验证了Xu等[23]通过GWAS找到的与绵羊尾部脂肪沉积相关的候选基因NRIP1(又叫RIP140)。因此,这些区段所对应的基因或者鉴定的基因可作为控制绵羊尾脂重要的候选基因。

3.4 脂肪沉积相关基因功能讨论



另外还有一些基因与脂肪代谢相关的疾病有关。CD1DABCG1、SAP30BPRAB37和ARAP1与2型糖尿病相关。2型糖尿病患者因为胰岛素功能不足,使糖代谢功能减弱,脂肪沉积增加,最终导致肥胖[53]。脂肪细胞CD1D在脂肪iNKT细胞的刺激中起关键作用,可导致高脂饮食小鼠抗炎反应[54],也可破坏肥胖小鼠内脏脂肪组织中的免疫平衡,最终引起2型糖尿病的发生[55]。三磷酸结合盒转运体G1(ATP-binding cassette G1,ABCG1)在胆固醇逆向转运过程中发挥着重要作用,并参与脂肪代谢[56]ABCG1与动脉粥样硬化[57]、肥胖[58-59]、糖尿病[60]等代谢疾病密切相关。Chen等[61]通过单个组织中表达数量性状位点(eQTL)鉴定出SAP30BP是肥胖和2型糖尿病的候选基因。RAB37基因甲基化之后容易造成成糖化血红蛋白(HbA1c)生成,而糖化血红蛋白与2型糖尿病、肥胖等疾病有关,RAB37基因间接影响着脂肪组织的代谢[62]ARAP1表达量增加会导致胰岛素功能降低,从而导致患2型糖尿病的风险增加[63]

4 结论


