计算机应用   2016, Vol. 36 Issue (11): 2969-2973  DOI: 10.11772/j.issn.1001-9081.2016.11.2969
0

引用本文 

孟军, 史贯丽. 融合粒子群优化和遗传算法的基因调控网络构建[J]. 计算机应用, 2016, 36(11): 2969-2973.DOI: 10.11772/j.issn.1001-9081.2016.11.2969.
MENG Jun, SHI Guanli. Construction of gene regulatory network based on hybrid particle swarm optimization and genetic algorithm[J]. Journal of Computer Applications, 2016, 36(11): 2969-2973. DOI: 10.11772/j.issn.1001-9081.2016.11.2969.

基金项目

国家自然科学基金资助项目(61472061)

通信作者

孟军(1964-), 女, 辽宁大连人, 副教授, 博士, CCF会员, 主要研究方向:机器学习、数据挖掘, mengjun@dlut.edu.cn

作者简介

史贯丽(1990-), 女, 河北邯郸人, 硕士研究生, 主要研究方向:机器学习、调控网络构建

文章历史

收稿日期:2016-06-03
修回日期:2016-06-20
融合粒子群优化和遗传算法的基因调控网络构建
孟军, 史贯丽    
大连理工大学 计算机科学与技术学院, 辽宁 大连 116023
摘要: MicroRNA(miRNA)是一类大小为21~25 nt的内源性非编码小核糖核酸(RNA),通过与mRNA的3’-UTR互补结合,导致mRNA降解或翻译抑制来调控编码基因的表达。为了提高构建基因调控网络的准确度,提出一种基于粗糙集、融合粒子群(PSO)和遗传算法(GA)的基因调控网络构建方法(PSO-GA-RS)。该方法首先通过对序列信息进行特征提取;然后采用粗糙集的依赖度作为适应度函数,融合粒子群和遗传算法选出较优的特征子集;最后使用支持向量机(SVM)建立模型,预测未知的调控关系。在拟南芥数据集上进行实验,相比基于粗糙集和粒子群优化的特征选择方法和Rosetta算法,所提方法的预测准确率、F值和受试者工作特征(ROC)曲线面积最多能提高5%,在水稻数据集上最多能提高8%。实验结果表明所提方法能够比较准确地预测miRNA和靶基因之间的调控关系。
关键词: 基因调控网络    粒子群优化    遗传算法    粗糙集    特征选择    
Construction of gene regulatory network based on hybrid particle swarm optimization and genetic algorithm
MENG Jun, SHI Guanli     
School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116023, China
Background: This work is partially supported by the National Natural Science Foundation of China (61472061)
MENG Jun, born in 1964, Ph. D., associate professor. Her research interests include machine learning, data mining
SHI Guanli, born in 1990, M. S. candidate. Her research interests include machine learning, construction of regulatory network
Abstract: MicroRNA(miRNA) is endogenous small non-coding RiboNucleic Acid (RNA), approximately 21~25 nucleotides in length, which plays an important role in gene expression via binding to the 3'-UnTranslated Region (UTR) of their mRNA target genes for translational repression or degradation of target messenger RNA. To improve the accuracy of gene regulatory network, a Rough Set based hybrid Particle Swarm Optimization (PSO) and Genetic Algorithm (GA) method (PSO-GA-RS) was proposed. Firstly, features of sequence information were extracted, and then using rough set dependence as a fitness function, an optimal feature subset was selected through hybrid PSO and GA. At last, Support Vector Machine (SVM) was used to establish the model to predict the unknown regulatory relationships. The experimental results show that, compared with Feature Selection based on Rough Set and PSO (PSORSFS) and Rosetta algorithm, the accuracy, F measure and Receiver Operating Characteristic (ROC) curve area of PSO-GA-RS was improved at most 5% on Arabidopsis thaliana, and improved at most 8% on Oryza sativa dataset. The proposed method achieves an improved performance in identifying true connections between miRNA and their target genes.
Key words: gene regulatory network    Particle Swarm Optimization (PSO)    Genetic Algorithm (GA)    rough set    feature selection    
0 引言

MicroRNA(miRNA)是一类非常重要的非编码核糖核酸(RiboNucleic Acid, RNA)分子, 通过诱导靶基因降解, 从而广泛地参与到基因的转录后调控, 或者通过抑制基因的转录, 对基因在转录水平上进行调控[1]。miRNA通过与靶mRNA(messenger RNA)匹配结合实现对生物学功能的调控, 因此, 研究miRNA与其靶基因的调控关系成为生物界广泛关注的问题。传统的实验验证方法耗费巨大, 利用现有的序列数据、基因表达数据或其他生物信息学数据, 通过统计学模型或机器学习的方法构建基因调控网络来发现基因之间的关系, 能够有效减少实验花费, 对生物学研究者有一定指导作用。

从机器学习的角度来看, 基因调控网络构建可以分为非监督学习和监督学习。非监督学习不需要已知的调控关系, 只是利用一些生物数据来进行调控网络的构建; 监督学习则需要已知的调控关系, 可以看出监督学习需要的数据信息多于非监督学习, 具有更强的发现能力。有研究表明, 在网络推断方面, 监督学习优于非监督学习[2]

监督学习需要利用已有的调控关系数据, 通过学习调控关系的判别模型, 对未知的调控关系进行判别, 需要处理特征生成和分类器选择问题。miRNA与其靶基因的交互特征包括自由能特征、结构序列特征和基于绑定位置特征, 收集这些特征并进行计算, 然后使用分类器进行模型的构建。由于支持向量机(Support Vector Machine, SVM)在解决小样本、非线性以及高维问题中表现出的优势[3], 使得它在基因网络构建方面独具一格, 已成为近期的研究热点。

本文提出了一种基于粗糙集、混合粒子群和遗传算法(Genetic Algorithm, GA)的基因调控构建方法。首先利用序列数据构建特征向量, 然后使用所提方法选取最优的特征子集, 构建支持向量机模型。由于存在正负样本不平衡问题, 本文采用SMOTE (Synthetic Minority Over-sampling TEchnique)[4]算法对样本进行处理, 降低类不平衡的影响。在拟南芥和水稻数据集上的实验结果表明该方法可以得到较好的性能。

1 粗糙集理论

粗糙集理论是Pawlak[5]在1982年提出的, 是处理模糊、不完备和不一致信息的一种有效工具, 已被广泛应用于属性约简[6]及数据分类[7]等方面。在粗糙集理论中, 用于分类和属性约简的数据集一般表示成决策表的形式, Pawlak给出了决策表的形式化定义。

定义1[8]    T=(U, CD, V, f)表示一个决策表, 其中U是一个非空且有限的样本集合, 称为论域。C是条件属性集合, D是决策属性集合。如果Q=CD, 任意属性qQ是一个全映射fq: UVq, 其中Vq表示属性q所有取值, 称为q的值域, 且$V = \bigcup\limits_{q \in Q} {{V_q}} ,f = \bigcup\limits_{q \in Q} {{f_q}} $定义2[8]    决策表T=(U, CD, V, f), 每一个属性子集BC, 它的不可分辨关系表示为:

$ IND(B) = \left\{ {(x,y) \in U \times U\left| {\forall b \in B,{f_b}(x) = } \right.{f_b}(y)} \right\} $ (1)

xU, U中所有与x满足不可分辨关系IND(B)的对象构成x的一个基于属性集B的等价类[x]B={y | yU, (x, y) ∈ IND(B)}。

粗糙集理论的核心思想就是利用两个能用基本集合精确表示的对象集合来近似U上的一个模糊对象集X。这两个对象集合分别称为上近似和下近似, 是粗糙集理论中的重要概念。

定义3[8]    任意对象子集XU, 属性子集BC, X的上、下近似集分别定义为:

$ \begin{array}{l} IND(B) = \left\{ {(x,y) \in U \times U\left| {\forall b \in B,{f_b}(x) = } \right.{f_b}(y)} \right\}\\ \underline B (X) = \{ x\left| {{{[x]}_B} \subseteq X,x \in U} \right.\} \end{array} $ (2)
$ \overline B (X) = \{ x\left| {{{[x]}_B} \cap X \ne \emptyset ,x \in U} \right.\} $ (3)

定义4[8]    决策表T=(U, CD, V, f), 任意条件属性子集BC,相对于决策属性集DB正域、负域和边界分别定义为:

$ PO{S_B}{\text{(}}D{\text{)}} = \bigcup\limits_{X \in U/D} {\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{B} (X)} $ (4)
$ NE{G_B}{\text{(}}D{\text{)}} = U - \bigcup\limits_{X \in U/D} {\overline B (X)} $ (5)
$ BN{D_B}{\text{(}}D{\text{)}} = \bigcup\limits_{X \in U/D} {\overline B (X} ) - \bigcup\limits_{X \in U/D} {\underline B (X)} $ (6)

其中U/D是由等价关系IND(D)导出的所有相异的等价类的集合。

定义5[9]    B是条件属性集合, D是决策属性, kD相对于B的依赖度, 定义如下:

$ k = {\gamma _B}(D) = \left| {PO{S_B}(D)} \right|/\left| U \right| $ (7)

通常0≤k≤1。当k=1时, 称D完全依赖于B;0 < k < 1时, D部分依赖于B;当k=0时, D完全独立于B

2 粒子群优化算法

粒子群优化(Particle Swarm Optimization, PSO)算法是由Eberhart和Kennedy博士在1995年提出的一种进化算法[10-11]。它是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法。PSO从这种觅食行为中得到启示并用来解决优化问题。每个问题的解看作是搜索空间中的一只鸟, 称之为粒子。PSO初始化为一群随机粒子, 通过迭代来找到最优解。每个粒子被看作d维空间中的一个点。第i个粒子表示为xi=(xi1, xi2, …, xid), 它的飞行速度为vi=(vi1, vi2, …, vid), 在每次迭代中, 粒子会根据两个极值来对自己进行更新:第一个极值就是粒子本身找到的最优解Pbest, 第i个粒子本身的最优解可以表示为pi=(pi1, pi2, …, pid);第二个极值是整个种群目前找到的最优解, 即全局极值gbest, 对应的粒子为pg=(pg1, pg2, …, pgd)。在每一次迭代过程中, 粒子根据式(8)和(9)更新自己的速度和位置:

$ \begin{array}{c} {v_{id}}^{t + 1} = w \times {v_{id}}^t + {c_1} \times rand() \times ({p_{id}}^t - {x_{id}}^t) + \\ {c_2} \times rand() \times ({p_{gd}}^t - {x_{id}} \end{array} $ (8)
$ {x_{id}}^{t + 1} = {x_{id}}^t + {v_{id}}^t $ (9)

其中:w称为惯性权重, 它是一个正的关于迭代次数的线性函数。选择合适的惯性权重可以保证全局搜索和局部搜索的平衡, 通过更少的平均迭代次数找到最优的解决方案。c1c2是两个加速因子, 代表将粒子向局部最优位置和全局最优位置移动的权重。rand()是一个随机函数, 范围在[0, 1]内。粒子在每一维的速度都会被一个最大速度vmax限制。如果某一维更新后的速度超过了最大速度, 则会被限定为最大速度vmax。如果vmax太小, 粒子就不能充分进行探索找到最优解决方案, 陷入局部最优;如果太大, 粒子就可能探索超出最优的解决方案。粒子的更新速度根据之前的速度和当前的位置相对于它本身的最优位置和全局最优位置进行更新。

3 遗传算法

遗传算法是一种模拟达尔文生物进化论的自然选择和遗传学机制演化而来的随机化搜索方法[12]。它采用概率化的寻优方法, 能自动获取和指导优化的搜索空间, 不需要确定的规则, 能够自适应的调整搜索方向, 已经被广泛应用到信号处理、组合优化和机器学习等领域。

遗传算法具有粒子群算法所没有的交叉和变异操作。交叉就是按照一个较大的概率从种群中选择两个个体, 交换两个个体的某个或某些位, 从而形成两个新的个体。交叉操作方法有单点交叉、两点交叉、多点交叉和顺序交叉等。常用的交叉算子是单点交叉算子, 是指在个体中随机设置一个交叉点, 然后在该点相互交换两个配对个体的部分染色体。

变异操作是模拟生物由于偶然的因素而引起基因突变的原理来进行的。它使用一个很小的变异概率随机将染色体中的某一位或某些位使用其他值进行替换, 从而形成一个新的个体。

4 基于粗糙集的PSO和GA的混合算法

虽然粒子群算法中粒子的学习能力很强, 节省时间并且容易实现。但是存在一些缺点:比如局部搜索能力比较差、搜索的精度不高、容易陷入局部最优解等。因此, PSO算法和其他算法的融合是当前的研究热点。Li等[13]在2006年提出将模拟退火算法和PSO进行融合;Ye等[14]在2005年将演化策略的变异算子引入到了PSO中;文献[15]在SVM特征选择方面对PSO和GA进行融合。

本文将粒子群算法和遗传算法的交叉与变异算子进行融合。遗传算法个体之间不共享信息, 侧重自然寻优, 而粒子群之间共享信息, 因此搜索时间较快, 将二者的优点进行融合。在粒子群算法的执行过程中, 将基于粗糙集的依赖度作为特征选择的适应度函数, 对于适应度函数排名靠前的粒子使用粒子群算法的速度和位置更新公式进行更新, 而对排名靠后的粒子则采用遗传算法的交叉和变异算子进行粒子的更新, 提出基于粗糙集的混合粒子群和遗传算法的方法(PSO-GA-RS)。

每个粒子是一个长为d的二进制位串, d是特征的总数, 每一位代表一个属性, “1”代表这个属性被选择, “0”代表这个属性没有被选择。

4.1 参数设置和适应度函数

惯性权重w影响着粒子群的搜索能力, 一般将惯性权重设置为随着迭代次数递减的函数, 这样在开始时可以有较大的搜索空间, 之后在一个较小的空间搜索, 提高收敛速度。公式如下:

$ w = ({w_s} - {w_e})*\frac{{Maxiter - iter}}{{Maxiter}} + {w_e} $ (10)

其中:wswe代表w的初始值和结束值, Maxiter代表最大迭代次数, iter代表当前的迭代次数。加速因子c1=2, c2=2, 最大速度vmax=(1/3)*d (d为特征的个数)。用适应度函数来评价粒子的质量, 综合考虑了粒子的分类质量以及选择的特征个数。定义如下:

$ Fitness = \alpha *{\gamma _R}(D) + \beta *\frac{{\left| C \right| - \left| R \right|}}{{\left| C \right|}} $ (11)

其中:γR(D)是决策属性集D相对于条件属性集R的依赖度, |C|是总的特征数, |R|是选择的特征数。本文α的取值为0.9, β的取值为0.1。

4.2 PSO-GA-RS方法流程

基于粗糙集的粒子群和遗传算法的混合算法过程如下:

第一步    设定算法的初始参数(种群规模、迭代次数、遗传算法的概率p、交叉和变异速率等)。

第二步    随机产生初始种群, 随机化粒子的速度和位置, 设置每个粒子的个体极值Pbest和全局极值gbest

第三步    根据式(11)计算每个粒子的适应值。

第四步    按照适应值的大小对粒子进行排序, 将排序前p的粒子, 根据式(8)和(9)更新速度和位置值。对于排在p以后的那些粒子, 使用遗传算法的交叉和变异算子进行更新。

第五步    根据更新后的粒子再次计算适应度值, 确定粒子的个体极值Pbest和全局极值gbest

第六步    判断是否满足迭代次数要求:如果是, 就转向第七步; 否则转向第三步。

第七步    输出最优粒子的最优位置。

5 实验分析 5.1 数据集

拟南芥和水稻的miRNA数据下载自miRNA数据库miRBase (版本号21) [16], 它包含了427条拟南芥miRNA成熟体。拟南芥mRNA数据下载自拟南芥数据库TAIR[17]。水稻的mRNA数据下载自Ensembl Genomes数据库(http://plants.ensembl.org)。本文使用的正样本来自一些文献中搜集的实验验证的拟南芥miRNA靶基因交互数据[18-22], 共101条。实验验证的水稻的miRNA靶基因交互数据共30条。因为实验验证的负样本数据缺乏, 因此一些负样本按照下面的步骤生成。

根据拟南芥miRNA中碱基比例PU=0.29, PC=0.19, PA=0.26, PG=0.26, 300个人工的miRNA(30 nt)已经生成[23],用这些生成的miRNA产生负样本。用psRNATarget[24]产生这些人工的miRNA的靶基因。最后, 1 311条负的调控关系已经生成。miRNA与其靶基因的序列特征一般包括自由能、结构和位置方面的特征, 本文采用文献[25]的方式提取48维特征。在水稻数据集上采用同样的方法生成负样本。因为需要样本数据中有miRNA与mRNA的交互的靶位点信息, 利用psRNATarget工具得到的调控关系作为测试集。

5.2 数据预处理及参数设置

实验中, 由于正负样本的比例不平衡, 负样本的比例大于正样本的比例, 结果会出现较高的假阴性。本文采用经典的SMOTE方法解决样本的不平衡问题。SMOTE算法是一种过采样算法, 基本思想是通过合成的方法产生新的少数样本。合成的方法是对每个少数类样本a, 计算a与少数类样本之间的欧氏距离, 选取k个最短的距离作为其最近邻, 文中的k值为5。然后从它的最近邻中随机选择样本b, 然后在ab之间的连线上随机选一点作为新合成的少数类样本M, 如式(12)所示, 其中u是一个介于0~1的随机数,并不是简单地进行复制。使用数据挖掘工具Weka[26]将连续属性值进行离散化处理, 以间距0.1为分割, 分成10份, 离散化后小于0.1的值都看作0, 0.1~0.2的值都看作0.1, 依此类推。

$ M = a + u \cdot (b - a) $ (12)

算法中的遗传概率p, 从0.1~0.9, 以0.1为步长连续取不同的值进行实验, 最终选取一组准确率最高时的p值作为最终的结果。

本文采用了3种分类性能评价指标, 分别是准确率、F值和受试者工作特征(Receiver Operating Characteristic, ROC)曲线面积。其中:

$ 准确率 = \left( {TP + TN} \right)/\left( {TP + TN + FP + FN} \right) $
$ F值 = \left( {2*TP} \right)/\left( {2*TP + FP + FN} \right) $

ROC曲线是显示分类器真正率和假正率折中的一种图形化方法。在一个ROC曲线中, 真正率(True Positive Rate, TPR)沿y轴进行绘制, 而假正率(False Positive Rate, FPR)显示在x轴上, 沿着曲线每一点对应于一个分类器归纳的模型。ROC曲线面积是曲线下方的面积, 其取值范围为0~1。

$ $
$ \begin{array}{l} TPR = TP/\left( {TP + FN} \right)\\ FPR = FP/\left( {TN + FP} \right) \end{array} $

其中:TPTNFPFN分别表示真阳性、真阴性、假阳性和假阴性。

表 1按照不同的p值选出不同的特征子集, 根据不同的特征子集采用支持向量机进行训练, 使用10倍交叉验证得到在拟南芥数据集上不同p值时的准确率、F值和ROC面积。本实验中, p值最终选择的是0.2。最大迭代次数Maxiter=100, 惯性权重的最大值和最小值分别是1.4和0.4。种群的大小N为特征的个数48, 遗传算法的交叉概率c=0.7, 变异概率m=0.01。

表 1 不同的p值时的性能比较
5.3 结果分析

本文方法PSO-GA-RS与基于粗糙集和粒子群优化的特征选择方法(Feature Selection based on Rough Sets and PSO, PSORSFS)[27]、粗糙集软件(ROSETTA)[28]等算法进行比较分析。ROSETTA中采用的是利用遗传算法得到的属性约简方法。然后使用支持向量机对每种算法得到的特征子集对应的样本子集进行分类, 采用10折交叉验证比较这三种算法的性能。因为使用粗糙集软件一共得到了4个不同的属性约简子集, 文中取它们的平均值进行比较。表 2为三种方法在拟南芥数据集上的性能比较。

表 2 三种方法在拟南芥数据集上的性能比较

使用同样的方法在水稻数据集上进行实验, 结果如表 3所示。

表 3 三种方法在水稻数据集上的性能比较

表 2表 3中可以看到, 虽然三种方法约简后的特征个数相同, 但是本文方法的准确率略高于其他两种方法。对于拟南芥数据集来说, 分类的准确率, F值和ROC面积都比PSORSFS高5%, 比ROSETTA高1%。在水稻数据上, 比PSORSFS高1%, 比ROSETTA高8%。

5.4 网络构建

根据构建的分类模型, 得到miRNA-mRNA的调控网络。图 1给出了部分的调控关系。miR156调控的AT1G27360、AT3G57920、AT1G35515等大部分均有GO术语GO:0006355。AT1G35515也具有相同的生物过程, 因此, 它们很可能同时被相同的调控因子调控。这里, 实验验证的miR157的靶基因都具有同样的GO标签, 而预测的AT2G42200也有相同的GO标签。同时被miR156和miR157预测A8T3G18217拥有的GO标签GO:0035195和GO:0006355都是GO标签GO:0010467的后代, 所以它们很可能也有相同的功能, 被同样的调控因子调控。表 4给出了这些实验验证的以及预测的miRNA的靶基因的GO术语及其功能。

图 1 预测的部分调控网络
表 4 miRNA的靶基因的GO术语及其功能
6 结语

基于粗糙集理论, 本文将粒子群优化算法与遗传算法相结合, 提出了一种新的构建调控网络的方法。考虑到miRNA与其靶基因之间的序列信息, 提取序列之间的关系, 构造特征向量, 混合粒子群和遗传算法选择最优的特征子集, 使用SMOTE算法解决样本不平衡问题。使用支持向量机进行实验, 采用10折交叉验证来衡量模型的准确性。结果表明, 该方法可以有效地预测调控关系。今后, 可以考虑结合其他种类的生物学数据, 提高预测的准确率。

参考文献
[1] RUVKUN G. Glimpses of a tiny RNA world[J]. Science, 2001, 294 (5543) : 797. doi: 10.1126/science.1066315
[2] MADHAMSHETTIWAR P B, MAETSCHKE S R, DAVIS M J, et al. Gene regulatory network inference:evaluation and application to ovarian cancer allows the prioritization of drug targets[J]. Genome Medicine, 2012, 4 (5) : 1-16.
[3] 亓慧, 王文剑, 郭虎升. 一种基于特征选择的SVM Bagging集成方法[J]. 小型微型计算机系统, 2014, 35 (11) : 2533-2537. ( QI H, WANG W J, GUO H S. An SVM bagging ensemble learning algorithm based on feature selection[J]. Journal of Chinese Computer Systems, 2014, 35 (11) : 2533-2537. )
[4] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE:synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16 (1) : 321-357.
[5] PAWLAK Z. Rough sets[J]. International Journal of Computer & Information Sciences, 1982, 11 (5) : 341-356.
[6] 常犁云, 王国胤, 吴渝. 一种基于Rough Set理论的属性约简及规则提取方法[J]. 软件学报, 1999, 10 (11) : 1207-1211. ( CHANG L Y, WANG G Y, WU Y. An approach for attribute reduction and rule generation based on rough set theory[J]. Journal of Software, 1999, 10 (11) : 1207-1211. )
[7] 石云, 孙玉芳, 左春. 基于Rough Set的空间数据分类方法[J]. 软件学报, 2000, 11 (5) : 673-678. ( SHI Y, SUN Y F, ZUO C. Spatial data classification based on rough set[J]. Journal of Software, 2000, 11 (5) : 673-678. )
[8] PAWLAK Z. Imprecise Categories, Approximations and Rough Sets[M]. Boston, Massachusetts: Kluwer Academic Publishers, 1991 : 9 -26.
[] PAUL S, MAJI P. Rough set based gene selection algorithm for microarray sample classification[C]//ICM2CS 2010:Proceedings of the 2010 International Conference on Methods and Models in Computer Science. Piscataway, NJ:IEEE, 2010:7-13.
[10] KENNDY J, EBERHART R C. Particle swarm optimization[C]//Proceedings of the 1995 IEEE International Conference on Neural Networks. Piscataway, NJ:IEEE, 1995:1942-1948. http://www.swarmintelligence.org/bibliography.php
[11] EBERHART R C, KENNEDY J. A new optimizer using particle swarm theory[C]//Proceedings of the 6th International Symposium on Micro machine and Human Science. Piscataway, NJ:IEEE, 1995:39-43.
[12] HAYES-ROTH F. Review of "Adaptation in Natural and Artificial Systems by John H. Holland". The University of Michigan Press[J]. ACM SIGART Bulletin, 1975, 53 : 15.
[13] LI L, WANG L, LIU L. An effective hybrid PSOSA strategy for optimization and its application to parameter estimation[J]. Applied Mathematics and Computation, 2006, 179 (1) : 135-146. doi: 10.1016/j.amc.2005.11.086
[14] YE B, ZHU C, GUO C, et al. Generating extended fuzzy basis function networks using hybrid algorithm[C]//Proceedings of the Second international conference on Fuzzy Systems and Knowledge Discovery. Berlin:Springer-Verlag, 2005:79-88.
[15] 张进, 丁胜, 李波. 改进的基于粒子群优化的支持向量机特征选择和参数联合优化算法[J]. 计算机应用, 2016, 36 (5) : 1330-1335. ( ZHANG J, DING S, LI B. Improved particle swarm optimization algorithm for support vector machine feature selection and optimization for parameters[J]. Journal of Computer Applications, 2016, 36 (5) : 1330-1335. )
[16] GRIFFITHS-JONES S, SAINI H K, VAN DONGEN S, et al. miRBase:tools for MicroRNA genomics[J]. Nucleic Acids Research, 2008, 36 (1) : 154-158.
[17] SWARBRECK D, WILKS C, LAMESCH P, et al. The Arabidopsis Information Resource (TAIR):gene structure and function annotation[J]. Nucleic Acids Research, 2008, 36 (Database issue) : D1009-D1014.
[18] ADDO-QUAYE C, ESHOO T W, BARTEL D P, et al. Endogenous siRNA and miRNA targets identified by sequencing of the Arabidopsis degradome[J]. Current Biology, 2008, 18 (10) : 758-762. doi: 10.1016/j.cub.2008.04.042
[19] ALLEN E, XIE Z, GUSTAFSON A M, et al. MicroRNA-directed phasing during trans-acting siRNA biogenesis in plants[J]. Cell, 2005, 121 (2) : 207-221. doi: 10.1016/j.cell.2005.04.004
[20] GERMAN M A, PILLAY M, JEONG D H, et al. Global identification of MicroRNA-target RNA pairs by parallel analysis of RNA ends[J]. Nature Biotechnology, 2008, 26 (8) : 941-946. doi: 10.1038/nbt1417
[21] LIANG G, HE H, YU D. Identification of nitrogen starvation-responsive MicroRNAs in Arabidopsis thaliana[J]. PloS One, 2012, 7 (11) : e48951. doi: 10.1371/journal.pone.0048951
[22] ALLEN E, XIE Z, GUSTAFSON A M, et al. Evolution of MicroRNA genes by inverted duplication of target gene sequences in Arabidopsis thaliana[J]. Nature Genetics, 2004, 36 (12) : 1282-1290. doi: 10.1038/ng1478
[23] SAETROM O L A, SNØVE O L A, SAETROM P. Weighted sequence motifs as an improved seeding step in MicroRNA target prediction algorithms[J]. RNA, 2005, 11 (7) : 995-1003. doi: 10.1261/rna.7290705
[24] DAI X, ZHAO P X. psRNATarget:a plant small RNA target analysis server[J]. Nucleic Acids Research, 2011, 39 (Web Server issue) : W155-W159.
[25] MENG J, SHI L, LUAN Y. Plant MicroRNA-target interaction identification model based on the integration of prediction tools and support vector machine[J]. PloS One, 2014, 9 (7) : e103181. doi: 10.1371/journal.pone.0103181
[26] HOLMES G, DONKIN A, WITTEN I H. WEKA:a machine learning workbench[C]//Proceedings of the 19942nd Australian and New Zealand Conference on Intelligent Information Systems. Piscataway, NJ:IEEE, 1994:357-361.
[27] WANG X, YANG J, TENG X, et al. Feature selection based on rough sets and particle swarm optimization[J]. Pattern Recognition Letters, 2007, 28 (4) : 459-471. doi: 10.1016/j.patrec.2006.09.003
[28] KOMOROWSKI J. ROSETTA-a rough set toolkit for analysis of data[C]//Proceedings of the 3rd International Joint Conference on Information Sciences. Berlin:Springer, 1997:403-407.