畜牧兽医学报  2020, Vol. 51 Issue (11): 2665-2678. DOI: 10.11843/j.issn.0366-6964.2020.11.006    PDF    
鸡胰岛素样生长因子2基因(IGF2)外显子区功能性SNP预测与分析
李玉冬1,2,3, 王伟佳1,2,3, 李紫薇1,2,3, 李瑞楚1,2,3, 张长超1,2,3, 王宁1,2,3, 李辉1,2,3, 王守志1,2,3     
1. 农业农村部鸡遗传育种重点实验室, 哈尔滨 150030;
2. 黑龙江省普通高等学校动物遗传育种与繁殖重点实验室, 哈尔滨 150030;
3. 东北农业大学动物科学技术学院, 哈尔滨 150030
摘要:旨在采用生物信息学方法筛选鸡IGF2基因中具有潜在生物学功能的非同义单核苷酸多态性(non-synonymous single nucleotide polymorphisms,nsSNPs)位点,为开展标记辅助选择改良鸡重要经济性状提供理论参考。本研究从dbSNP数据库中检索出鸡IGF2基因的12个nsSNPs位点,利用生物信息学软件SIFT、Polyphen-2、PhD-SNP和SNAP预测其中可能的功能性SNP;使用I-Mutant3.0和Mupro方法对突变位点的氨基酸稳定性进行分析;对鸡IGF2基因编码的氨基酸序列进行多序列比对和进化位点保守性预测,并结合MutPred2预测突变可能造成的功能后果;最后使用Sopma预测IGF2野生型和突变型的蛋白质二级结构,运用I-TASSER构建它们的蛋白质三级结构。结果发现,rs740391349(E29G)、rs735633122(T30P)、rs739078786(L31P)、rs736255842(E35G)及rs736800980(V37G)这5个nsSNPs可能影响鸡IGF2的蛋白功能,且所有位点突变都会使IGF2蛋白稳定性降低。多序列比对及保守性分析显示,rs740391349(E29G)、rs735633122(T30P)和rs736255842(E35G)为高度保守并暴露的功能性残基,MutPred2与二级结构分析结果表明,rs735633122(T30P)和rs736255842(E35G)这两个位点上的突变都导致了α螺旋百分比下降。三级结构分析表明,rs735633122(T30P)和rs736255842(E35G)这2个nsSNPs均会导致IGF2的蛋白空间结构发生变化。综上所述,T30P和E35G位点突变严重影响鸡IGF2蛋白质的结构,可能是影响鸡生长和体组成性状的重要功能性SNPs。
关键词    IGF2基因    SNP功能预测    生物信息学    
Prediction and Analysis of Functional SNP on Exon Region of Insulin-like Growth Factor 2 Gene (IGF2) in Chickens
LI Yudong1,2,3, WANG Weijia1,2,3, LI Ziwei1,2,3, LI Ruichu1,2,3, ZHANG Changchao1,2,3, WANG Ning1,2,3, LI Hui1,2,3, WANG Shouzhi1,2,3     
1. Key Laboratory of Chicken Genetics and Breeding of Ministry of Agriculture and Rural Affairs, Harbin 150030, China;
2. Key Laboratory of Animal Genetics, Breeding and Reproduction of Education Department of Heilongjiang Province, Harbin 150030, China;
3. College of Animal Science and Technology, Northeast Agricultural University, Harbin 150030, China
Abstract: The aim of this study was to use bioinformatics methods to screen non-synonymous single nucleotide polymorphisms (nsSNPs) sites with potential biological functions in chicken IGF2 gene and provide a theoretical basis for carrying out marker-assisted selection to improve important economic traits of chicken. Twelve nsSNPs sites of chicken IGF2 gene were retrieved from dbSNP database. SIFT, Polyphen-2, PhD-SNP, and SNAP were used to predict the possible functional SNPs. The amino acid stability of mutation sites was analyzed by I-Mutant3.0 and Mupro methods. Multiple sequence alignment and conserved prediction of evolutionary sites were carried out on the amino acid sequence encoded by chicken IGF2 gene, and combined with MutPred2 to predict the possible functional consequences caused by mutations. Finally, Sopma was used to predict the secondary structure of IGF2 wild-type and mutant proteins, and I-TASSER was used to construct their tertiary structure. The results showed that rs740391349 (E29G), rs735633122 (T30P), rs739078786 (L31P), rs736255842 (E35G) and rs736800980 (V37G) might affect the protein function of chicken IGF2, and all the mutations reduced the protein stability of IGF2. Multiple sequence alignment and conservative analysis showed that rs740391349 (E29G), rs735633122 (T30P), and rs736255842 (E35G) were highly conserved and exposed functional residues. MutPred2 and secondary structural analysis showed that mutations at rs735633122 (T30P) and rs736255842 (E35G) both led to a decreased percentage of α-helix. Tertiary structural analysis showed that rs735633122 (T30P) and rs736255842 (E35G) could change the spatial structure of IGF2 protein. In summary, mutations at T30P and E35G seriously affect the structure of chicken IGF2 protein and may be the significant functional SNPs affecting chicken growth and body composition traits.
Key words: chicken    IGF2 gene    SNP function prediction    bioinformatics    

胰岛素样生长因子2(insulin-like growth factor 2,IGF2)又称生长调节素A(somatomedin A),它与胰岛素具有同源性,是胰岛素-胰岛素样生长因子-释放生长因子家族的成员之一,其编码的蛋白是一种促有丝分裂多肽[1-2]。IGF2在许多物种的整个发育过程中都具有重要功能,该基因参与机体DNA和蛋白的合成,参与脂质和葡萄糖代谢过程。它也是一种多功能细胞增殖调控因子,在细胞的分化、增殖、胚胎的生长发育以及肿瘤细胞中都有表达,发挥重要的调控作用[3-4]

目前,IGF2基因在人、鼠和农业动物上已有较多研究。对哺乳动物的研究发现,该基因是一种印记基因,即源自双亲的两个等位基因在传递给后代时一方不表达或者很少表达,是依靠单亲传递某种遗传性状。相比较而言,鸡IGF2基因是双等位基因表达的,由于卵生,母源身体代谢信息对孵化出的后代无影响[5]IGF2基因作为农业动物重要经济性状的候选基因已有较多报道,鉴定了一些显著影响目标性状的分子标记。薛慧良和徐来祥[6]发现,IGF2基因外显子8的53位存在C→T转换,该突变基因型对猪的初生重和6月龄背膘厚有显著影响。刘桂兰等[7]发现,IGF2基因第8内含子一处Nci Ⅰ酶切位点造成的基因型对猪的个体背膘厚、肥肉率和瘦肉率有显著影响。Van Laere等[8]利用EMSA、荧光素酶报告基因和基于亚硫酸盐甲基化分析等方法证实,猪IGF2基因内含子3中存在一个影响肌肉发育的功能性SNP。韩瑞华等[9]发现,IGF2基因多态性与秦川牛宰前活重、胴体重、胴体长、胴体胸深、眼肌面积显著相关,与大理石花纹、嫩度、pH24显著相关。颜炳学等[10]在明星肉鸡和丝毛乌骨鸡杂交产生的F2代鸡群体中研究了IGF2基因对生长和屠体性状的影响,发现该基因外显子2中的一处碱基突变造成的基因型对胸角宽、腺胃重、半净膛重有显著性影响。总之,IGF2是一种多功能细胞增殖调控因子,其编码基因对人和动物细胞的分化、增殖、胚胎的生长发育具有重要的促进作用。

随着基因组测序、分子建模、虚拟筛选等技术的快速发展,通过生物信息学工具分析和预测基因突变对性状影响的分子机理在现代生命科学领域发挥出越来越重要的作用。非同义单核苷酸多态性(non-synonymous single nucleotide polymorphisms, nsSNPs)是指处于编码区可引起氨基酸序列变化的单核苷酸突变,因其可能会对蛋白质功能造成影响,多被认为是导致人类表型和畜禽性状变异的重要原因。非同义单核苷酸多态性可分为两种,一种是导致多肽链出现终止子导致编码提前终止,称之为无义突变(nonsense mutation),另一种是导致多肽链中的某一氨基酸发生改变,这种突变称为错义突变(missense mutation)[11],后者更为常见。错义突变并不都是被预测为有害突变,而预测为有害的错义突变也并不意味着该突变一定会影响畜禽正常生理功能,而是指该突变会影响DNA的转录以及后续翻译,进而影响蛋白质的结构和功能,从而可能造成某些重要经济性状的改变,在本研究中,被预测为有害的nsSNPs称之为功能性SNP。利用生物信息学方法对未知表型的nsSNPs进行功能性预测,是一种筛选候选功能位点的理想策略,研究结果可以为验证工作提供思路和参考[12]。目前,国内外研究人员已经通过各种生物信息工具,在对影响人类与动物表型和性状的基因功能性突变分析和预测方面开展了大量的工作,并取得了丰硕的研究成果[13-17]

本研究利用生物信息技术对鸡IGF2基因编码区nsSNPs进行分析,旨在筛选可能影响鸡生长和体组成性状的功能性突变位点,并预测其可能的作用机理。研究结果将有助于理解该基因对鸡生长发育的作用机理,也为应用标记辅助选择改良鸡生长等重要经济性状提供参考。

1 材料与方法 1.1 鸡IGF2基因nsSNPs的获取

IGF2基因的序列号(ENSGALT00000053800)在Ensembl genome browser(http://asia.ensembl.org)中进行检索,以IGF2基因序列为标准,根据dbSNP数据库提供的信息确定各SNPs在基因中的位置(外显子区、内含子区、启动子区域等),筛选位于编码区的nsSNPs。并且利用生物信息学绘图软件IBS(http://ibs.biocuckoo.org/)绘制IGF2基因的结构图。

1.2 鸡IGF2基因nsSNPs功能的预测

应用4种在线预测软件SIFT(http://sift.jcvi.org/)[18]、Polyphen-2(http://genetics.bwh.harvard.edu/pph2/)[19]、PhD-SNP(http://snps.biofold.org/phd-snp/phd-snp.html)[20]和SNAP(https://github.com/KorfLab/SNAP)[21]分析各nsSNPs对鸡IGF2基因的影响,运用R语言绘制4种预测方法预测结果的韦恩图。

SIFT是一款由BII(bioinformatics institute)服务器支持的预测氨基酸替代是否影响蛋白功能的开放性工具。Polyphen-2是一款基于大量序列、进化发育和结构特征来预测氨基酸替代对蛋白质结构和功能影响的自动化软件。对于给定的氨基酸替换,Polyphen-2可以根据替换位置的不同序列和结构特征来进行可能的归类。PhD-SNP平台主要对目标nsSNPs数据集进行致病性分析,以SVM(support vector machine)算法为基础,判断某nsSNPs是否与疾病相关,其预测结果可以分为致病(disease)及中性(neutral)。SNAP是Ian Korf独自开发的软件,它自身没有现成的数据集,需要得到参考物种的基因组序列和基因位置信息,再来构建数据集来进行预测。当预测结果Reliability Index分值大于0时则可说明结果有效。

1.3 鸡IGF2蛋白质稳定性预测

利用在线网站I-Mutant3.0(http://gpcr.biocomp.unibo.it/~emidio/I-Mutant3.0/old/IntroI-Mutant3.0_help.html)和Mupro(http://mupro.proteomics.ics.uci.edu/)[22]对IGF2单点突变后蛋白质的稳定性进行预测。在评估结果中,DDG为自由能变化值,DDG<0表示蛋白质的稳定性降低,DDG>0表示蛋白质的稳定性增加,-0.05≤DDG≤0.05表示蛋白质的稳定性变化为中性。

1.4 鸡IGF2氨基酸多序列比对及进化保守位点分析

利用Clustal Omega(https://www.ebi.ac.uk/Tools/msa/clustalo/)对IGF2的氨基酸序列进行多序列比对排列,利用在线服务器ConSurf(http://consurftest.tau.ac.il)[23]分析IGF2氨基酸位点的进化保守水平。越是保守的位点发生变异,越可能对蛋白质造成功能或结构上的影响。

1.5 MutPred2预测鸡IGF2基因突变位点可能造成的功能后果

MutPred2(http://mutpred.mutdb.org/)是一个独立的基于序列同源性的机器学习软件包,可以分析序列变体的结构、功能和表型结果,预测潜在的致病性和蛋白质性质的变化[24]。MutPred2可以将氨基酸替换分为致病或良性,此外,它还能够通过从HGMD、SwissVar和dbSNP数据库中收集有害和未标记(假设为良性)的变异进行模拟和测试,从而推断致病性的分子机制。

1.6 鸡IGF2蛋白质二级结构和三级结构预测

通过在线软件Sopma(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)[25]和I-TASSER(https://kuscholarworks.ku.edu/handle/1808/12854)[26]对鸡IGF2蛋白及其突变体的二级结构和三级结构分别进行预测和分析,进而评估nsSNPs可能造成的影响。

2 结果 2.1 鸡IGF2基因nsSNPs的筛选

2.1.1 鸡IGF2基因上的SNPs分布   从Ensembl数据库中检索到IGF2基因的转录本IGF2-201 (ENSGALT00000053800),总共397个SNPs被标记在鸡IGF2基因序列中,其中12个错义突变,4个同义突变,7个3′非翻译区(3′UTR)变异,有161个变异位于内含子区,位于基因上游的变异115个,此外还有98个变异位于基因下游。不同功能类别的SNPs数量百分比如图 1所示。

图 1 IGF2基因上的SNPs分布饼图 Fig. 1 Pie chart of SNPs distribution on chicken IGF2 gene

2.1.2 nsSNPs在鸡IGF2基因编码区的结构分布   通过dbSNP和Ensembl数据库共检索出12个nsSNPs(rs731565905、rs740391349、rs735633122、rs739078786、rs736255842、rs736800980、rs740732527、rs738037274、rs736409250、rs740315045、rs735583383和rs737652468)位于鸡IGF2基因的编码区。使用生物信息学绘图软件IBS绘制鸡IGF2基因上nsSNPs的分布情况,见图 2所示。

图 2 IGF2基因nsSNPs的分布示意图 Fig. 2 Distribution of nsSNPs on chicken IGF2 gene
2.2 鸡IGF2基因功能性nsSNPs预测

2.2.1 SIFT预测功能性nsSNPs   SIFT基于同源序列比对分析SNP,其分值表明该位点突变对蛋白质序列的影响。SIFT预测为有害的nsSNPs有6个,它们的ID分别是rs740391349、rs736255842、rs737652468、rs739078786、rs735633122、rs736800980;预测为可耐受的突变有6个,分别是rs740315045、rs740732527、rs738037274、rs736409250、rs731565905、rs735583383(表 1)。

表 1 SIFT预测鸡IGF2基因功能性nsSNPs Table 1 Prediction of functional nsSNPs of chicken IGF2 gene by SIFT

2.2.2 Polyphen-2预测功能性nsSNPs   Polyphen-2的预测结果中“probably damaging”的区间值为0.909~1.000,“possibly damaging”的区间值为0.447~0.908,“benign”的区间值为0.000~ 0.446,其分数越接近1.0损害可能越大,越接近0损害可能越小。Polyphen-2的预测结果如表 2所示,其中预测为有害突变的nsSNPs有8个,其ID分别是rs740391349、rs736255842、rs740315045、rs737652468、rs739078786、rs738037274、rs735633122和rs736800980;预测为中性的nsSNPs有3个,分别是rs740732527、rs736409250、rs735583383。另外,Polyphen-2对于rs731565905的预测结果未知。

表 2 Polyphen-2预测鸡IGF2基因功能性nsSNPs Table 2 Prediction of functional nsSNPs of chicken IGF2 gene by Polyphen-2

2.2.3 PhD-SNP预测功能性nsSNPs   PhD-SNP预测结果如表 3所示,其中预测为有害性的nsSNPs有5个,其ID分别是rs740391349、rs736255842、rs739078786、rs735633122和rs736800980;预测为中性的nsSNPs有7个,分别是rs740315045、rs737652468、rs740732527、rs738037274、rs736409250、rs731565905和rs735583383。

表 3 PhD-SNP预测鸡IGF2基因功能性nsSNPs Table 3 Prediction of functional nsSNPs of chicken IGF2 gene by PhD-SNP

2.2.4 SNAP预测功能性nsSNPs   SNAP的预测结果如表 4所示,其中预测为非中性的nsSNPs有7个,其ID分别是rs740391349、rs736255842、rs739078786、rs731565905、rs735633122、rs736800980和rs735583383;预测为中性的nsSNPs有5个,分别是rs740315045、rs737652468、rs740732527、rs738037274、rs736409250。

表 4 SNAP预测鸡IGF2基因功能性nsSNPs Table 4 Prediction of functional nsSNPs of chicken IGF2 gene by SNAP

2.2.5 鸡IGF2基因功能性nsSNPs预测分析   整合SIFT、Polyphen-2、PhD-SNP和SNAP 4种软件功能性nsSNPs预测结果,发现E29G、T30P、L31P、E35G及V37G这5个位点是共有的nsSNPs,由此推测,这些位点为鸡IGF2基因外显子区功能性nsSNPs位点。通过R语言的“Venn”package绘制4种预测方法预测结果的韦恩图,见图 3所示。

图 3 4种预测方法对鸡IGF2基因功能性nsSNPs预测的韦恩图 Fig. 3 The Venn diagram of functional nsSNPs prediction of chicken IGF2 gene by 4 prediction methods
2.3 鸡IGF2蛋白质稳定性预测

利用I-Mutant3.0和Mupro评估nsSNPs对蛋白质稳定性的影响,结果如表 5所示。可见I-Mutant3.0评估得出IGF2除I62L突变使蛋白质稳定性变化为中性,其他位点多态性均使得蛋白质稳定性下降,Mupro评估得出所有突变位点均使IGF2蛋白质稳定性下降。其中E29G、T30P、L31P、E35G及V37G为之前预测的功能性突变位点。

表 5 IGF2蛋白质稳定性评估 Table 5 IGF2 protein stability assessment
2.4 鸡IGF2的多序列比对和进化保守性位点预测

2.4.1 IGF2氨基酸序列的多序列比对   在NCBI中运用Protein Blast数据库检索得到5条IGF2在原鸡、珠鸡、火鸡、鳞斑鹑和绿头鸭中的高度同源序列,利用Clustal Omega对IGF2的氨基酸序列进行多序列比对排列,并且使用Jalview进行作图分析得到的结果如图 4所示,从多序列比对结果可以看出,E29G、T30P、L31P、E35G和V37G这5个多态位点在不同的物种中均表现出其保守性。

图 4 多序列比对图 Fig. 4 Multiple sequence alignment diagram

2.4.2 IGF2进化保守性位点预测   为了验证上面的氨基酸多序列比对结果,利用在线服务器ConSurf预测了IGF2的进化保守位点,预测结果见图 5。ConSurf输出的不同得分代表不同的保守性程度,得分低,保守性程度小;得分高,保守性程度大。图中分数为7~9的位点为进化保守性位点。

e.基于神经网络算法的暴露残基;b.基于神经网络算法的隐蔽残基;f.预测的功能残基(高度保守和暴露);s.预测的结构残基(高度保守和隐蔽) e.An exposed residue according to the neural-network algorithm; b. A buried residue according to the neural-network algorithm; f. A predicted functional residue (highly conserved and exposed); s.A predicted structural residue (highly conserved and buried) 图 5 鸡IGF2进化保守性的预测 Fig. 5 Prediction of the evolutionary conservatism of chicken IGF2

图 5可知,在IGF2氨基酸序列进化保守性位点预测结果中,与多态位点一致的共计8个高度保守的位点,即E29G、E35G、E135G、L31P、Q133R、T30P、V37G和V136G,其中E29G、T30P、L31P、E35G和V37G这5个位点为之前预测出的主要功能性nsSNPs。由此看出,在高度保守的位点中有超过1/2的位点为主要的功能性位点,其中E29G、T30P以及E35G为高度保守并暴露的功能性残基,所以推测这3个位点处的突变对蛋白质结构功能会造成显著影响。

2.5 鸡IGF2 5种突变体蛋白质二级结构分析

利用在线软件Sopma对鸡IGF2的5种突变体进行了蛋白质二级结构预测,结果见表 6

表 6 IGF2 5种突变体蛋白质二级结构预测 Table 6 Prediction of secondary structure of 5 IGF2 mutants  

野生型IGF2的蛋白质二级结构中含有α螺旋、延伸链、β转角、无规则卷曲4种结构。其中, α螺旋占48.66%,延伸链占8.02%,β转角占5.35%,无规则卷曲占37.97%。E29G、E35G、L31P、T30P、V37G这5个位点的突变都造成了IGF2蛋白质二级结构的改变,它们都导致了α螺旋百分比下降和无规则卷曲百分比的提高;除了E29G突变导致延伸链百分比下降,其他4处突变都导致延伸链百分比提高;T30P突变未能影响β转角比例,而E29G和L31P都导致β转角比率降至4.81%,V37G突变也使β转角比率降低,只有E35G突变使β转角所占百分比提高(表 6)。

2.6 IGF2突变位点可能的功能后果预测

MutPred2网络工具预测与疾病相关的表型,还识别由nsSNPs引发的氨基酸替换所导致的疾病或有害的分子原因。MutPred2的输出包含总分数(g)和属性分数(P),g表示氨基酸替换是有害或疾病相关的概率,P指定替换对蛋白质构象和功能属性的影响。g>0.5且P < 0.05的被称为中度置信的假设,g>0.75且P < 0.05的被称为高置信假设。从结果中可以得出,T30P和L31P的突变均会导致蛋白质α螺旋的丢失,而且L31P的功能后果预测为高置信假设,E35G位点不仅会造成蛋白质α螺旋的丢失,还有可能在C32位点失去二硫键, V37G突变可能会在C32位点失去二硫键(表 7)。由此可知,多序列比对和进化保守性分析所得到的E29G、T30P和E35G这3个位点中,T30P(rs735633122)和E35G(rs736255842)两个突变位点严重影响鸡IGF2蛋白质的结构,可能是影响鸡生长和体组成性状的重要功能性SNPs。

表 7 疾病相关氨基酸替代和功能后果预测 Table 7 Prediction of disease-related amino acid substitution and functional consequences
2.7 鸡IGF2基因编码的蛋白质三级结构建模

蛋白质的生物学功能在很大的程度上取决于其空间结构,研究清楚IGF2基因编码的蛋白构象,进而理解其结构与功能的关系对于功能性SNP预测具有重要意义。使用在线预测网站I-TASSER预测了鸡IGF2蛋白质的三级结构。

对T30P(rs735633122)和E35G(rs736255842)野生型的IGF2蛋白3D模型和突变后的IGF2蛋白3D模型进行了预测,并将野生型IGF2蛋白与它的突变体的碳骨架结构进行重叠分析。如图 6所示,图中不同的颜色代表不同的二级结构,紫色代表α螺旋,蓝色代表 3_10螺旋,红色代表π螺旋,蓝绿色代表转角,白色代表自由卷曲。野生型结构用GLSL渲染模式调制成透明颜色以便对比。用红色标注突变前的氨基酸,蓝色标注突变后的氨基酸,可以由图 6A看出,由苏氨酸变成脯氨酸没有导致蛋白质局部构象的变化,但是导致突变型多出了一部分π螺旋,并且野生型和突变型的碳骨架有较大幅度偏移。同理,由图 6B可以看出由谷氨酸变为甘氨酸并没有导致蛋白质局部构象的变化,但造成了碳骨架有较大幅度偏移,重叠度显著下降,发生了结构性变化。

图 6 IGF2基因编码的蛋白质三级结构建模 Fig. 6 Tertiary structure modeling of IGF2 gene encoding proteins
3 讨论

SNP是畜禽DNA序列中最常见的一种突变形式,其对性状的功能和作用机制解析是当前基因组学研究的热点之一。近年来,通过生物信息学工具进行功能性nsSNPs的预测,已经被广泛地应用到人类医学和农业领域功能性SNP研究中。通过生物信息学预测工具可以显著地减少所研究SNPs的数目,能够筛选出最有可能的功能性nsSNPs,用于后续功能试验验证,因而该方法是一种省时省力且节约成本的有效方法[27]IGF2是一种多功能细胞增殖调控因子,其编码基因对人和动物细胞的分化、增殖和胚胎的生长发育具有重要的促进作用。对鸡的研究表明,IGF2基因的多态性与生长、屠体和腹脂等重要经济性状显著相关[28-29]。本研究以影响鸡生长发育性状的IGF2基因为候选基因,综合应用多种主流生物信息学工具针对该基因编码区错义突变开展功能预测和可能的机理分析。

本研究同时采用SIFT、Polyphen-2、PhD-SNP和SNAP对鸡IGF2基因外显子区的功能性nsSNPs进行了预测。由于这些生物信息学工具是基于不同的数据库和算法开发的,其灵敏度和准确性各具特点,因此,单独使用时预测结果不尽相同(表 1~表 4)。在这4种生物信息学工具中,SIFT和Polyphen-2是两款用于nsSNPs功能性预测的标准工具,所预测的结果假阳性率更低[30-31]。相比于SIFT和Polyphen-2,PhD-SNP的优势在于能够更准确的预测高危nsSNPs对蛋白质功能的影响,然而在中风险位点的预测上准确度较低[32]。相较于其他3种工具,SNAP的优势是引入了与预测精度相关的可靠性指标,并能够过滤掉低精度的预测。然而在一些特殊情况(如病毒序列的分析)中,SNAP的预测准确性较差[33-34]。为了使预测结果更为可靠和准确,本研究整合了4种工具的预测结果,筛选出共有的E29G、E35G、L31P、T30P和V37G这5个nsSNPs,推测它们更可能为功能性位点。

研究发现,保守的序列片段往往对应重要的功能区域,位于高度保守位点的nsSNPs相较于非保守位点nsSNPs更易成为功能性SNP[35]。不同物种间的多序列比对和ConSurf保守性估计可用于氨基酸序列保守位点的筛查,进而筛选可能的功能性nsSNPs[36]。蛋白质的稳定性对正常的生物学功能、活性和分子调控至关重要,致病性错义突变可导致蛋白错误折叠和稳定性降低。I-Mutant3.0和Mupro是预测蛋白稳定性的两种重要方法,预测结果通过自由能变化来表示[37],本研究同时采用I-Mutant3.0和Mupro两种方法对单点突变进行蛋白质稳定性预测,可确保预测的可靠性。MutPred2能够阐明由nsSNPs引发的氨基酸替换所导致的蛋白质表型变异的分子机制,从而进一步筛选可能的功能性nsSNPs。通过序列保守性和蛋白质稳定性分析,发现T30P和E35G为高度保守并暴露的功能性残基,从理论上讲,这2个突变位点相比于其他位点更可能为功能性位点。

本研究的预测结果表明,T30P和E35G这2个nsSNPs分别使苏氨酸变为脯氨酸,谷氨酸变为甘氨酸。苏氨酸是不带电荷的极性氨基酸,常暴露在蛋白质表面,而常常起到疏水作用的脯氨酸为非极性氨基酸,它多埋藏在蛋白质结构内部。与在氨基酸系列中结构最为简单的非极性氨基酸甘氨酸不同,作为一种酸性氨基酸,谷氨酸是一种不带电荷的极性氨基酸;因为前者的分子中同时具有酸性和碱性官能团,所以它具有更强的亲水性[38-39]。氨基酸的疏水性与亲水性、极性与非极性等性质不仅影响氨基酸侧链R基团的功能行使,同时也影响各类酶和基质、抗体和抗原间的相互作用[40]。因此,根据本研究中蛋白质三级结构建模结果,可以推测,T30P和E35G两个突变位点能够导致IGF2蛋白质空间结构发生变化。值得注意的是,MutPred2对氨基酸替代的功能预测结果与后续蛋白质的二级结构预测结果一致,即T30P和E35G这两个位点上的突变都导致了α螺旋百分比下降。这说明突变在某种程度上影响了编码氨基酸的性质,可能使得α螺旋转化为无规则卷曲,进而在一定程度上影响IGF2蛋白的空间构象。MutPred2分析结果还显示,E35G突变还直接破坏了野生型结构中的二硫键,而二硫键是较为稳定的共价键,在蛋白质分子中能够稳定肽链的空间结构[41],而二硫键数目也与蛋白质分子对抗外界因素影响的能力呈正相关。

需要指出的是,T30P和E35G突变是否能够通过影响蛋白的表达进而影响鸡的生长发育,需要进一步通过突变前后的疏水性和蛋白质翻译后修饰等试验进行验证。

4 结论

IGF2基因的T30P(rs735633122)和E35G(rs736255842)可能为影响鸡生长发育的重要功能性突变位点,其可能通过改变该基因编码的蛋白质结构发挥生物学功能。

参考文献
[1] 刘艳利, 申静, 支丽慧, 等. 叶酸调控鸡脾和胸腺IGF2表达的表观遗传机制探究[J]. 畜牧兽医学报, 2016, 47(2): 296–304.
LIU Y L, SHEN J, ZHI L H, et al. The study on epigenetic mechanism of IGF2 expression in spleen and thymus regulated by folic acid in broilers[J]. Acta Veterinaria et Zootechnica Sinica, 2016, 47(2): 296–304. (in Chinese)
[2] RINDERKNECHT E, HUMBEL R E. Primary structure of human insulin-like growth factor Ⅱ[J]. FEBS Lett, 1978, 89(2): 283–286. DOI: 10.1016/0014-5793(78)80237-3
[3] LEE J E, PINTAR J, EFSTRATIADIS A. Pattern of the insulin-like growth factor Ⅱ gene expression during early mouse embryogenesis[J]. Development, 1990, 110(1): 151–159.
[4] 赵海东, 邬明丽, 陈平博, 等. IGF2基因表达调控及其遗传变异在动物生长发育中的研究进展[J]. 中国畜牧兽医, 2020, 47(6): 1844–1852.
ZHAO H D, WU M L, CHEN P B, et al. Research progress of IGF2 gene expression regulation and its genetic variation in animal growth and development[J]. China Animal Husbandry & Veterinary Medicine, 2020, 47(6): 1844–1852. (in Chinese)
[5] 李志辉.鸡IGF2、IGFBP2基因多态性与生长和体组成性状的相关研究[D].哈尔滨: 东北农业大学, 2003.
LI Z H.The SNPs of chicken IGF2 and IGFBP2 gene are genetically associated with growth & body composition traits[D]. Harbin: Northeast Agricultural University, 2003.(in Chinese)
[6] 薛慧良, 徐来祥. 猪IGF2基因的遗传多态性及其遗传效应分析[J]. 遗传, 2008, 30(2): 179–184.
XUE H L, XU L X. Genetic polymorphisms and genetic effects of IGF2 gene in pigs[J]. Hereditas (Beijing), 2008, 30(2): 179–184. (in Chinese)
[7] 刘桂兰, 蒋思文, 熊远著, 等. IGF2基因PCR-RFLP多态性与脂肪沉积相关性状的关联分析[J]. 遗传学报, 2003, 30(12): 1107–1112.
LIU G L, JIANG S W, XIONG Y Z, et al. Association of PCR-RFLP polymorphisms of IGF2 gene with fat deposit related traits in pig resource family[J]. Acta Genetica Sinica, 2003, 30(12): 1107–1112. (in Chinese)
[8] VAN LAERE A S, NGUYEN M, BRAUNSCHWEIG M, et al. A regulatory mutation in IGF2 causes a major QTL effect on muscle growth in the pig[J]. Nature, 2003, 425(6960): 832–836. DOI: 10.1038/nature02064
[9] 韩瑞华, 昝林森, 杨大鹏, 等. 秦川牛IGF2基因SNPs检测及其与胴体、肉质性状的相关性[J]. 遗传, 2008, 30(12): 1579–1584.
HAN R H, ZAN L S, YANG D P, et al. SNPs detection of IGF2 gene and its relationship with carcass and meat quality traits in Qinchuan cattle[J]. Hereditas (Beijing), 2008, 30(12): 1579–1584. (in Chinese)
[10] 颜炳学, 李宁, 邓学梅, 等. 鸡类胰岛素生长因子-Ⅱ基因单核苷酸多态与生长、屠体性状相关性的研究[J]. 遗传学报, 2002, 29(1): 30–33.
YAN B X, LI N, DENG X M, et al. Single nucleotide polymorphism analysis in chicken insulin-like growth factor-Ⅱ gene and its associations with growth and carcass traits[J]. Acta Genetica Sinica, 2002, 29(1): 30–33. (in Chinese)
[11] 杨竞.非同义单核苷酸多态性与疾病相关关系的预测与分析[D].上海: 华东理工大学, 2012.
YANG J.Prediction and research the relationship between Non-synonymous SNPs and diseases[D].Shanghai: East China University of Science and Technology, 2012.(in Chinese)
[12] ZHANG M Z, HUANG C, WANG Z Y, et al. In silico analysis of non-synonymous single nucleotide polymorphisms (nsSNPs) in the human GJA3 gene associated with congenital cataract[J]. BMC Mol Cell Biol, 2020, 21(1): 12. DOI: 10.1186/s12860-020-00252-7
[13] 王全, 鲁雅洁, 曹新. 人肌球蛋白7A基因非同义单核苷酸多态性位点潜在致聋突变的预测分析[J]. 生物技术通讯, 2016, 27(6): 743–751.
WANG Q, LU Y J, CAO X. Predictions of the pathogenic non-synonymous single nucleotide polymorphisms in deafness-causing gene MYO7A[J]. Letters in Biotechnology, 2016, 27(6): 743–751. (in Chinese)
[14] 郝文文, 张贝, 任一帆, 等. 鸡StAR基因非同义单核苷酸多态性的生物信息学分析[J]. 河北科技师范学院学报, 2019, 33(3): 1–8.
HAO W W, ZHANG B, REN Y F, et al. Bioinformatics analysis of non-synonymous SNPs in chicken StAR gene[J]. Journal of Hebei Normal University of Science & Technology, 2019, 33(3): 1–8. (in Chinese)
[15] 郝文文, 杨倩倩, 张贝, 等. 鸡BCO2基因功能性单核苷酸多态性的生物信息分析[J]. 家禽科学, 2019(4): 17–21.
HAO W W, YANG Q Q, ZHANG B, et al. In silico characterization of functional SNP within chicken BCO2 gene[J]. Poultry Science, 2019(4): 17–21. (in Chinese)
[16] WANG Z Y, HUANG C, LV H B, et al. In silico analysis and high-risk pathogenic phenotype predictions of non-synonymous single nucleotide polymorphisms in human Crystallin beta A4 gene associated with congenital cataract[J]. PLoS One, 2020, 15(1): e0227859. DOI: 10.1371/journal.pone.0227859
[17] ARIFUZZAMAN M, MITRA S, DAS R, et al. In silico analysis of nonsynonymous single-nucleotide polymorphisms (nsSNPs) of the SMPX gene[J]. Ann Hum Genet, 2020, 84(1): 54–71. DOI: 10.1111/ahg.12350
[18] KUMAR P, HENIKOFF S, NG P C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm[J]. Nat Protoc, 2009, 4(7): 1073–1081. DOI: 10.1038/nprot.2009.86
[19] ADZHUBEI I A, SCHMIDT S, PESHKIN L, et al. A method and server for predicting damaging missense mutations[J]. Nat Methods, 2010, 7(4): 248–249. DOI: 10.1038/nmeth0410-248
[20] MAHDAVI M, KOULIVAND L, KHORRAMI M, et al. In silico analysis of SLC3A1 and SLC7A9 mutations in Iranian patients with Cystinuria[J]. Mol Biol Rep, 2018, 45(5): 1165–1173.
[21] 王乾坤.KRAS基因中肺癌相关的nsSNPs筛选与模拟研究[D].上海: 上海交通大学, 2019.
WANG Q K.Computational screening deleterious non-synonymous single nucleotide polymorphisms and molecular dynamic simulation of lung cancer associated mutations in KRAS gene[D].Shanghai: Shanghai Jiaotong University, 2019.(in Chinese)
[22] SAHOO N R, KUMAR P, KHAN M F, et al. Sequence diversity of major histo-compatibility complex class Ⅱ DQA1 in Indian Tharparkar cattle:novel alleles and in-silico analysis[J]. HLA, 2019, 93(6): 451–461. DOI: 10.1111/tan.13521
[23] ASHKENAZY H, ABADI S, MARTZ E, et al. ConSurf 2016:an improved methodology to estimate and visualize evolutionary conservation in macromolecules[J]. Nucleic Acids Res, 2016, 44(W1): W344–W350. DOI: 10.1093/nar/gkw408
[24] SINGH R K, MAHALINGAM K. In silico approach to identify non-synonymous SNPs in human obesity related gene, MC3R (melanocortin-3-receptor)[J]. Comput Biol Chem, 2017, 67: 122–130. DOI: 10.1016/j.compbiolchem.2016.12.009
[25] HAN B, YUAN Y W, LIANG R B, et al. Genetic effects of LPIN1 polymorphisms on milk production traits in dairy cattle[J]. Genes (Basel), 2019, 10(4): 265. DOI: 10.3390/genes10040265
[26] KARGAR F, MORTAZAVI M, SAVARDASHTAKI A, et al. Genomic and protein structure analysis of the luciferase from the Iranian bioluminescent beetle, Luciola sp[J]. Int J Biol Macromol, 2019, 124: 689–698. DOI: 10.1016/j.ijbiomac.2018.11.264
[27] SPENCER G S G, DECUYPERE E, BUYSE J, et al. Effect of recombinant human insulin-like growth factor-Ⅱ on weight gain and body composition of broiler chickens[J]. Poult Sci, 1996, 75(3): 388–392.
[28] 陈则东, 沈晓鹏, 穆洪云. 鸡IGF2基因外显子1的多态性及其与生产性能的相关性[J]. 江苏农业科学, 2016, 44(6): 331–332.
CHEN Z D, SHEN X P, MU H Y. Polymorphism of exon 1 of IGF2 Gene in Chicken and its correlation with production performance[J]. Jiangsu Agricultural Science, 2016, 44(6): 331–332. (in Chinese)
[29] 李志辉, 王启贵, 赵建国, 等. 类胰岛素生长因子Ⅱ(IGF2)基因多态性与鸡体脂性状的相关研究[J]. 中国农业科学, 2004, 37(4): 600–604.
LI Z H, WANG Q G, ZHAO J G, et al. Study on correlation analysis of single nucleotide polymorphism of IGF2 gene and body fatness traits in chicken[J]. Scientia Agricultura Sinica, 2004, 37(4): 600–604. (in Chinese)
[30] GUTTULA P K, CHANDRASEKARAN G, GUPTA M K. Screening and insilico analysis of deleterious nsSNPs (missense) in human CSF3 for their effects on protein structure, stability and function[J]. Comput Biol Chem, 2019, 82: 57–64. DOI: 10.1016/j.compbiolchem.2019.06.001
[31] MUSTAFA H A, ALBKRYE A M S, ABDALLA B M, et al. Computational determination of human PPARG gene:SNPs and prediction of their effect on protein functions of diabetic patients[J]. Clin Transl Med, 2020, 9(1): e7.
[32] CAPRIOTTI E, CALABRESE R, CASADIO R. Predicting the insurgence of human genetic diseases associated to single point protein mutations with support vector machines and evolutionary information[J]. Bioinformatics, 2006, 22(22): 2729–2734. DOI: 10.1093/bioinformatics/btl423
[33] BROMBERG Y, ROST B. SNAP:predict effect of non-synonymous polymorphisms on function[J]. Nucleic Acids Res, 2007, 35(11): 3823–3835. DOI: 10.1093/nar/gkm238
[34] RIAHI A, MESSAOUDI A, MRAD R, et al. Molecular characterization, homology modeling and docking studies of the R2787H missense variation in BRCA2 gene:Association with breast cancer[J]. J Theor Biol, 2016, 403: 188–196. DOI: 10.1016/j.jtbi.2016.05.013
[35] AKDEL M, DURAIRAJ J, DE RIDDER D, et al. Caretta - a multiple protein structure alignment and feature extraction suite[J]. Comput Struct Biotechnol J, 2020, 18: 981–992. DOI: 10.1016/j.csbj.2020.03.011
[36] ISLAM M J, PARVES M R, MAHMUD S, et al. Assessment of structurally and functionally high-risk nsSNPs impacts on human bone morphogenetic protein receptor type IA (BMPR1A) by computational approach[J]. Comput Biol Chem, 2019, 80: 31–45. DOI: 10.1016/j.compbiolchem.2019.03.004
[37] WANG Q K, MEHMOOD A, WANG H, et al. Computational screening and analysis of lung cancer related non-synonymous single nucleotide polymorphisms on the human Kirsten rat sarcoma gene[J]. Molecules, 2019, 24(10): 1951. DOI: 10.3390/molecules24101951
[38] YU A, LAU A Y. Glutamate and glycine binding to the NMDA receptor[J]. Structure, 2018, 26(7): 1035–1043.e2. DOI: 10.1016/j.str.2018.05.004
[39] BROSNAN J T, BROSNAN M E. Glutamate:a truly functional amino acid[J]. Amino Acids, 2013, 45(3): 413–418. DOI: 10.1007/s00726-012-1280-4
[40] ISLAM M M, KOBAYASHI K, KIDOKORO S I, et al. Hydrophobic surface residues can stabilize a protein through improved water-protein interactions[J]. FEBS J, 2019, 286(20): 4122–4134. DOI: 10.1111/febs.14941
[41] LAKBUB J C, SHIPMAN J T, DESAIRE H. Recent mass spectrometry-based techniques and considerations for disulfide bond characterization in proteins[J]. Anal Bioanal Chem, 2018, 410(10): 2467–2484. DOI: 10.1007/s00216-017-0772-1