计算机应用   2017, Vol. 37 Issue (12): 3498-3503  DOI: 10.11772/j.issn.1001-9081.2017.12.3498
0

引用本文 

卢玲, 杨武, 杨有俊, 陈梦晗. 结合语义扩展和卷积神经网络的中文短文本分类方法[J]. 计算机应用, 2017, 37(12): 3498-3503.DOI: 10.11772/j.issn.1001-9081.2017.12.3498.
LU Ling, YANG Wu, YANG Youjun, CHEN Menghan. Chinese short text classification method by combining semantic expansion and convolutional neural network[J]. Journal of Computer Applications, 2017, 37(12): 3498-3503. DOI: 10.11772/j.issn.1001-9081.2017.12.3498.

基金项目

国家社会科学基金西部项目(17XXW005);重庆市教委科学技术研究项目(KJ1500903)

通信作者

杨武, E-mail:yw@cqut.edu.cn

作者简介

卢玲(1975-), 女, 重庆人, 副教授, 硕士, CCF会员, 主要研究方向:机器学习、信息检索;
杨武(1965-), 男, 重庆人, 教授, 硕士, CCF会员, 主要研究方向:信息检索、机器学习;
杨有俊(1995-), 男, 重庆人, CCF会员, 主要研究方向:机器学习、自然语言处理;
陈梦晗(1998-), 女, 河南开封人, CCF会员, 主要研究方向:机器学习、信息检索

文章历史

收稿日期:2017-06-16
修回日期:2017-08-29
结合语义扩展和卷积神经网络的中文短文本分类方法
卢玲, 杨武, 杨有俊, 陈梦晗    
重庆理工大学 计算机科学与工程学院, 重庆, 400050
摘要: 中文新闻标题通常包含一个或几十个词,由于字符数少、特征稀疏,在分类问题中难以提升正确率。为解决此问题,提出了基于Word Embedding的文本语义扩展方法。首先,将新闻标题扩展为(标题、副标题、主题词)构成的三元组,用标题的同义词结合词性过滤方法构造副标题,对多尺度滑动窗口内的词进行语义组合,提取主题词;然后,针对扩展文本构造卷积神经网络(CNN)分类模型,该模型通过max pooling及随机dropout进行特征过滤及防止过拟合;最后,将标题、副标题拼接为双词表示,与多主题词集分别作为模型的输入。在2017自然语言处理与中文计算评测(NLP & CC2017)的新闻标题分类数据集上进行实验。实验结果表明,用三元组扩展结合相应的CNN模型在18个类别新闻标题上分类的正确率为79.42%,比未经扩展的CNN模型提高了9.5%,且主题词扩展加快了模型的收敛速度,验证了三元组扩展方法及所构建CNN分类模型的有效性。
关键词: 新闻标题分类    语义扩展    卷积神经网络    同义词    语义组合    
Chinese short text classification method by combining semantic expansion and convolutional neural network
LU Ling, YANG Wu, YANG Youjun, CHEN Menghan     
College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400050, China
Abstract: Chinese news title usually consists of a single word to dozens of words. It is difficult to improve the accuracy of news title classification due to the problems such as few characters and sparse features. In order to solve the problems, a new method for text semantic expansion based on word embedding was proposed. Firstly, the news title was expanded into triples consisting of title, subtitle and keywords. The subtitle was constructed by combining the synonym of title and the part of speech filtering method, and the keywords were extracted from the semantic composition of words in multi-scale sliding windows. Then, the Convolutional Neural Network (CNN) model was constructed for categorizing the expanded text. Max pooling and random dropout were used for feature filtering and avoidance of overfitting. Finally, the double-word spliced by title and subtitle, and the multi-keyword set were fed into the model respectively. Experiments were conducted on the news title classification dataset of the Natural Language Processing & Chinese Computing in 2017 (NLP & CC2017). The experimental results show that, the classification precision of the combination model of expanding news title to triples and CNN is 79.42% in 18 categories of news titles, which is 9.5% higher than the original CNN model without expanding, and the convergence rate of model is improved by keywords expansion. The proposed expansion method of triples and the constructed CNN model are verified to be effective.
Key words: news title classification    semantic expansion    Convolutional Neural Network (CNN)    synonym    semantic composition    
0 引言

随着网络文本数量增加,呈现大数据特征,如何对海量文本进行快速分析,例如根据新闻标题进行类别识别,根据网络评论进行情感分析等,在自动问答[1]、信息检索[2]、网络舆情发现等领域应用广泛。新闻标题字符数少,属于短文本,在文本结构化时存在数据稀疏问题[3],难以根据词的共现信息挖掘其语义,使基于特征抽取的机器学习分类算法,如朴素贝叶斯、支持向量机等,和基于自动特征学习的卷积神经网络等深度学习模型,在直接应用于短文本分类时,仍存在不足。针对这种短文本数据稀疏对分类性能的影响,学者从扩展短文本特征、优化文本特征表示方法及改进分类模型方面,展开了广泛研究。

从文本特征扩展方法看,Phan等[4]用隐狄克雷分布(Latent Dirichlet Allocation, LDA)发现潜在语义,对短文本进行扩展;马成龙等[5]通过训练无标注数据得到词矢量,再用词矢量相似度扩展文本的集外词;郑诚等[6]提出了融合主题模型(Biterm Topic Model, BTM)特征和改进特征权重计算的方法,用于扩充短文本特征;张海涛等[7]用背景补偿与边缘相关方法,根据文本关联性建立小样本簇背景特征集,并结合边缘相关性分析确定文本特征;高元等[8]提出了一种融合随机森林与贝叶斯多项式的标题分类算法,用图书馆书目数据验证了其性能。上述文本扩展方法在不同数据集上均取得了性能提升,但其对文本特征的表示方法仍需人工定义,且对文本特征扩展时可能引入的噪声未作进一步讨论。近年来,神经网络(Neural Network, NN)方法由于能从大规模数据中进行自动特征学习,在自然语言处理中被大量使用。Le等[9]用无监督方法学习段落向量,得到句子、段落等变长文本的固定大小的特征表示;Kalchbrenner等[10]用动态卷积神经网络对句子建模,用动态k-max pooling消除输入语句长度的影响;Kim [11]用预训练的词向量结合卷积NN(Convolutional NN, CNN)进行句子分类,在情感分类、主客观句分类和问句分类等数据集上验证了模型性能;Wang等[12]提出了一种结合密度峰聚类及Word Embedding的短文本扩展方法,是与本文最相关的工作。在文本语义表示方面,Mitchell等[13]对短语、句子的分布式表示模型构建及评价方法进行了研究;Mikolov等[14-15]提出用Skip-gram模型学习大规模文本数据的向量表示,并对如何提高训练质量及速度[16]进行了研究。文献[11, 13-16]为本文针对扩展文本提出的CNN分类模型结构,以及本文的文本短语语义扩展方法,提供了主要理论依据。

综上可知,现有研究主要着眼于扩展短文本特征,并借助深度学习模型的大规模参数表述能力,根据高阶n-gram及词序信息[12]学习语义特征,改进特征描述方法。但由于扩展文本从一定程度改变了原文语法结构,有必要针对扩展文本设计分类模型,使其适于对扩展文本进行特征学习。另外,特征扩展容易引入噪声,使短文本发生主题偏移而影响分类性能。因此,本文对短文本扩展及分类模型构建方法展开了研究。通过适度控制扩展文本长度,针对扩展文本结构建立分类模型以改善分类性能。对汉语新闻标题,首先基于Word Embedding将其扩展为标题三元组,再构造卷积神经网络,对标题三元组进行分类。实验在2017自然语言处理与中文计算评测(Natural Language Processing & Chinese Computing in 2017, NLP & CC2017)的新闻标题分类数据集上进行,验证了本文方法的有效性。

1 短文本及扩展依据 1.1 短文本描述

短文本的研究多针对特定域文本,如微博、网络评论、搜索引擎查询串等,但没有对短文本的明确定义。本文以中文新闻标题为研究目标。分析15万条新闻标题文本,其词数及字符数如图 1所示。从图 1折线可知,标题字符数介于1~40,图 1柱形表示的中文分词(结巴分词)词数介于1~28,如“南京长江大桥”分词结果为一个词“南京长江大桥”。结合新闻门户网站(如新浪新闻)、新闻出版物对新闻标题字数的约束,本文所研究短文本的字符数介于1~40。

图 1 新闻标题字符数、词数分布 Figure 1 Distribution of terms and words of news titles
1.2 文本扩展依据

阅读文本时,通常读者会根据自身认知及上下文进行信息补充,以加深对原文理解。例如如下分词后的文本:

1)“他们不会再囤积中锋了吧?”

2)“周琦下赛季会怎么样?”

对文本1),读到“中锋”时,读者可能补充“足球”“篮球”等近义词;对文本2),读到“周琦”“赛季”时,读者可能搜索对这些词组合的认知信息,进而根据“篮球”“比赛”等近义词判断文本类别。可见,对短文本进行扩展可辅助分类。

Word Embedding又称“Word Representation”,中文称“词向量”或“词嵌入”,本文用“词向量”表示Word Embedding。词向量可通过构建神经网络语言模型[18],结合上下文信息,将词映射成低维实向量而得到。词向量各维的取值取决于词与维度的共现频率,词的语义分布在各维上,其相对位置描述了其语义关系,因此根据词间距离可判断词的语义相似度,进而找出同义词,这是本文的一种文本扩展依据。例如用余弦距离计算下述词语的同义词(本文实验语料训练的Word2Vec):

篮球:排球、垒球、橄榄球;

赛事:比赛、本届、赛站。

可分别将“排球”“比赛”作为“篮球”“赛事”的扩展词。虽然这里的扩展词描述了与原文不同的事件,但由于“篮球赛事”和“排球比赛”都属于“sport”类事件,因此对文本分类任务,仍可辅助类别判断。

另外,由于单个词忽略了上下文语义,因此文本扩展还应考虑组合词,即词向量的组合[13]。对任意词向量uv,其组合[13]描述为:

NP = f (u, v)

其中:f为组合函数;NPuv组合成的新语义。NP的产生依赖于两个假设[13]:1)在相似文本中出现的uv,其语义也相似;2)uv向量的相似性可表达其语义相似性。根据词向量特点,uv符合上述假设。对组合函数f,由于词向量具有analogy性质[16],其语义关系可通过如下线性算子[14-16]描述,如:

vec("Madrid")-vec("Spain")+vec("France")→vec("Paris")

本文以词向量的analogy性质作为其组合依据,用向量加法作为组合函数f,如式(1):

$ \mathit{\boldsymbol{NP}} = \mathit{\boldsymbol{u}} + \mathit{\boldsymbol{v}} $ (1)

通过词向量uv相加,将词语简单混合,产生新向量NPNP蕴含了新的语义,可根据其抽取新的特征作为文本扩展词。词向量相加的问题是无法判断相加顺序,因而忽略了词序信息。对该问题,本文用连续滑动的多尺度窗口抽取词组合,使获得的新特征间保持相对词序信息。

2 短文本扩展方法

本文根据一般新闻标题的(标题,副标题,主题词)描述格式,将待分类新闻标题T,扩展为标题三元组,形如:

Title = {T, TA, KEYS}

其中:Title为扩展标题;T为待分类标题;TA为副标题;KEYS为主题词集。

2.1 副标题提取

副标题TA用于扩展对T的描述,因此与T具有相似词,且应符合一定语法规范。本文提取TA的方法是:对T的任意词语ti,提取与其最相似,且与ti词性相同的词为扩展词;连接扩展词形成TA。其中词性过滤是使TAT具有相似语法,符合一定语义规范。假设文本T为{t1, t2, …, tn},ti是其任一词。经预训练得到EW为{D, WMDIC},其中D是词语列表,WMDIC是词向量矩阵,分别表示为:

D = [d1, d2, …, dN]

WMDIC = (f1, f2…, fN)

其中:dkD中任一词;fkdk的词向量;N为词语总数。提取副标题TA如算法ABSST(ABStract SubTitle)所示。

算法  ABSST。

输入  T, EW

输出  TA

1) TA = {∅}

2) foreach ti in T:

  if ti in D:

    maxDist = -1

    foreach fk in WMDIC:

      distance = Cosdis(fD.index(ti), fk)

      if maxDist < distance and POS(dk) = = POS(ti)

        maxDist = distance

        pos = k

      TA = TA∪{dpos}

其中:D.index (ti)为词tiD中的索引位置;Cosdis(fD.index(ti), fk)为计算词向量fD.index(ti)fk的余弦相似度;POS(ti)为ti的词性。将TA的词按选中先后顺序拼接,得到副标题TA。对D中未登录词不予提取,本文实验中用空白符代替。

2.2 主题词集提取

参照GB/T3860—2009《文献主题标引规则》描述,主题词能反映文献特征,有利于快速检索。因此本文抽取文本的主题词以增强对文本的描述,用于辅助分类。

对短文本的词扩展,文献[12]根据文本的词组合,寻找其最相似的类别中心词,再抽取中心词周围一定阈值内的词为扩展词。该方法需进行词聚类,并在词抽取时设置超参数,另外抽取的扩展词间不存在语序关系。因此,本文基于文献[12]方法,首先从文本提取词组合,再将其最相似词作为主题词。主题词提取如图 2所示,提取过程如下:

图 2 多尺度词向量组合的主题词抽取 Figure 2 Keywords extraction from composition of multiscale word vectors

1) 以预训练的词向量矩阵WMDICRdim×N为查找表,以D为词语列表, 其中dim是词向量维度,N为单词数。对文本T的每个词ti,根据WMDIC填充词向量矩阵TMRdim×N,其中nT的词数。

2) 设置多尺度大小滑动窗口,根据式(1),分别对窗口内词向量求和,得到NewFeatures,表示为{NF1, NF2, …, NFP}。其中P是窗口数,NFk是第k个新向量矩阵,表示为:

NFk = (nfk1, nfk2, …, nfkq)

其中:nfki是词向量相加而成的新向量;q是新向量数。

3) 对NewFeatures中的每个新向量,查询WMDIC中最相似的词向量,并从D中提取对应词,作为主题词。

由此主题词集KEYS表示为:

KEYS = {Key1, Key2, …, KeyP}

其中Keyk为第k组主题词,表示为:

Keysk = {wk1, wk2, …, wkq}

其中wki是提取的一个主题词。

例如,对“car”类文本T,设窗口数P为3,抽取结果为(本文实验语料训练的Word2Vec):

T:北汽、幻速、车型、勇闯、无人区;

Key1:赵景光、新车、不畏艰难、昆仑山;

Key2:汽车、新车、无人区;

Key3:汽车集团、轿车。

由此T的主题词集KEYS为{Key1, Key2, Key3}。可见通过多尺度窗口的词组合,逐渐聚焦了关键词“车”。虽然KEYS没有反映出“勇闯无人区”这一事件,但仍从一定程度加深了对T的描述,实现了词扩展。与文献[12]方法相比较,本文方法每次从滑动窗口提取一个最相似特征,避免词聚类时进行超参数设置,并使扩展特征数得到一定控制。另外,通过窗口滑动的连续性,扩展特征KEYS中的各主题词间保持了相对词序信息,有利于后续基于卷积计算的特征学习。

3 CNN分类模型

CNN是一种前馈神经网络。文献[11]提出了一种基于CNN的文本分类模型。本文对该模型的输入层进行改进,以适合本文的扩展文本,得到如图 3所示的扩展文本分类模型。对文本T,首先抽取副标题TA、主题词集KEYS,得到三元组Title = {T, TA, KEYS}用于构造网络输入层;再通过卷积运算抽取Title的特征图FMFKS;对FMFKS进行max pooling采样,并经全连接层及softmax得到网络输出,即T所属类别。

图 3 基于CNN的扩展文本分类模型 Figure 3 Classification model of expanded text based on CNN
3.1 构造输入数据

假设文本T为{t1, t2, …, tn}、TA为{ta1, ta2, …, tan},n是文本T的词数。以WMDIC为查找表,分别查找TTA中每个词的词向量,填充词向量矩阵MR2n×dim,表示为:

M = (m1, m2, …,m2n); miRdim

图 3所示分类模型的输入层可见,为提高模型泛化能力,本文将TTA对应位置的词向量拼接得到MM长度为2n,是一种双词表达形式。本文用这种方式扩展T,用于增加模型的鲁棒性,由此得到的M在一定程度影响但并未完全破坏原文的语序。

对主题词集KEYS = {Key1, Key2, …,KeyP},填充其词向量矩阵集KS,表示为{K1, K2, …, KP}。其中KdRdm×dim是任一主题词集的词向量矩阵,dm是其包含主题词数,表示为:

Kd = (k1, k2, …, kdm); kjRdim

本文对未登录词的词向量采用随机初始化。

3.2 网络训练过程

网络训练过程分3步:

1) 特征抽取。MKS经卷积层进行特征抽取。由于M包含双词词序信息,KS包含相对词序信息,因此分别用不同卷积核。特征抽取如式(2)所示:

$ \begin{array}{l} c_r^{\left( i \right)} = {\rm{Relu}}\left( {{\mathit{\boldsymbol{k}}^{\left( i \right)}}{\mathit{\boldsymbol{M}}_{i:i + \mathit{\boldsymbol{k}}_{ra}^{\left( i \right)}- 1}} + {\mathit{\boldsymbol{B}}^{\left( i \right)}}} \right);\\ \;\;\;\;\;\;\;\;\;\;\;r \in \left[{1, 2n-k_{ra}^{\left( i \right)} + 1} \right] \end{array} $ (2)

其中:k(i)为第i个卷积核,其行数为kra(i),宽度为dim,与词向量相同;Mi:i+kra(i)-1为卷积核内的词向量矩阵;B(i)为偏置项;卷积结果经激活函数输出,文本用Relu函数为卷积层激活函数;cr(i)为经第i个卷积核抽取的特征;n为输入的原文长度。由式(2)可分别得到MKd的第i个、第j个卷积核抽取的特征图:

$ \begin{array}{l} \mathit{\boldsymbol{feaM}}_{_\mathit{\boldsymbol{M}}}^{\left( i \right)} = \left[{c_1^{\left( i \right)}, c_2^{\left( i \right)}, \cdots, c_{2n-k_{ra}^{\left( i \right)} + 1}^{\left( i \right)}} \right]\\ \mathit{\boldsymbol{feaK}}_{{\mathit{\boldsymbol{K}}_d}}^{\left( j \right)} = \left[{c_1^{\left( j \right)}, c_2^{\left( j \right)}, \cdots, c_{2{w_{kd}}-k_{ra}^{\left( j \right)} + 1}^{\left( j \right)}} \right] \end{array} $

其中,wkd为主题词集Kd的词数。由此M经卷积层输出特征图为:

$ \mathit{\boldsymbol{FM}} = \left( {\mathit{\boldsymbol{feaM}}_{_\mathit{\boldsymbol{M}}}^{\left( 1 \right)}, \mathit{\boldsymbol{feaM}}_{_\mathit{\boldsymbol{M}}}^{\left( 2 \right)}, \cdots, \mathit{\boldsymbol{feaM}}_{_\mathit{\boldsymbol{M}}}^{\left( {M\_size} \right)}} \right) $

Kd经卷积抽取特征图为:

$ \mathit{\boldsymbol{F}}{\mathit{\boldsymbol{K}}_{{\mathit{\boldsymbol{K}}_d}}} = \left( {\mathit{\boldsymbol{feaK}}_{_{{K_d}}}^{\left( 1 \right)}, \mathit{\boldsymbol{feaK}}_{_{{K_d}}}^{\left( 2 \right)}, \cdots, \mathit{\boldsymbol{feaK}}_{_{{K_d}}}^{\left( {{K_d}\_size} \right)}} \right) $

KS经卷积层输出特征图集为:

$ \mathit{\boldsymbol{FKS}} = \left\{ {\mathit{\boldsymbol{F}}{\mathit{\boldsymbol{K}}_{{\mathit{\boldsymbol{K}}_1}}}, \mathit{\boldsymbol{F}}{\mathit{\boldsymbol{K}}_{{\mathit{\boldsymbol{K}}_2}}}, \cdots, \mathit{\boldsymbol{F}}{\mathit{\boldsymbol{K}}_{{\mathit{\boldsymbol{K}}_Q}}}} \right\} $

其中:M_sizeKd_sizeQ分别为M的卷积核数、Kd的卷积核数、抽取的主题词集数。

2) 采样层及随机dropout。卷积层输出的特征图FMFKS经采样层过滤以减少参数数量。max pooling通过保留一组样本最大值[19],提取最重要的特征。本文对特征图进行max pooling,再将采样结果拼接成1维实向量X。为避免模型过拟合,在训练阶段对X进行随机dropout[20],使max pooling输出每次随机减少。

3) 全连接层参数训练。将采样层输出X作为一个全连接(Full Connection, FC)层的输入,计算如式(3):

$ \mathit{\boldsymbol{Y}} = f\left( {\mathit{\boldsymbol{W}} \cdot \mathit{\boldsymbol{X}} + \mathit{\boldsymbol{b}}} \right) $ (3)

其中:f是激活函数;W是FC层权重矩阵;b是偏置项。FC层输出Y是一维实向量,表示为[y1, y2, …, yr],yi是输入文本属于某一类别的评分;r是分类类别数。用softmax函数将Y转换为属于类别的概率A,表示为[p(y1), p(y2), …, p(yr)],p(yi)计算如式(4):

$ p\left( {{y_i}} \right) = {e^{{y_i}}}/\sum\limits_k {{e^{{y_k}}}} $ (4)

取MAX(A)作为输入文本所属类别。对网络参数W,根据训练文本的分类标签,用反向传播(Back Propagation, BP)算法进行梯度更新。由于交叉熵函数可加速反向传播[21],因此用交叉熵函数LOSS作损失函数,如式(5):

$ LOSS\left( {\mathit{\boldsymbol{OUTPUT}}, \mathit{\boldsymbol{A}}} \right) =-\frac{1}{{\left| \mathit{\boldsymbol{A}} \right|}}\sum\limits_{i = 1}^r {outpu{t_i}\ln \left( {p\left( {{y_i}} \right)} \right)} $ (5)

其中:OUTPUT是训练文本的类别标签,表示为[output1, output2, …, outputr],是独热编码向量。W的更新以使损失函数最小化为目标,采用梯度下降方法如式(6):

$ {w_{ji}} \leftarrow {w_{ji}}-\eta \frac{{\partial LOS{S_d}}}{{\partial {w_{ji}}}} $ (6)

其中:LOSSd是训练文本d的损失;η是学习速率。

3.3 超参数设置

网络超参数包括卷积核大小、卷积核数、词向量宽度等,可通过网格搜索进行寻优。本文实验表明,词向量宽度分别为200、300时,分类性能并无显著提升,本文实验用词向量宽度为200。由于文本重点是特征扩展及分类模型的适用性,故对其他网络参数调优不作详述。为避免扩展特征数多而引入较大噪声,本文分析认为MKS的卷积核数应满足式(7)条件:

$ {F_\mathit{\boldsymbol{M}}} \ge F{}_{\mathit{\boldsymbol{KS}}} $ (7)

其中,FMFKS分别是MKS经采样层输出的特征数。当FM等于FKS时,采样层从MKS抽取特征数相同。本文实验表明,当FM小于FKS,模型收敛速度显著下降,且分类正确率无提升。分析其原因,由于主题词集均为扩展词,包含较大噪声,当扩展词超过正文特征数,可能因扩展词与正文主题不一致而引起理解歧义。通过减少KS的卷积核数,减少从主题词集抽取特征数,可降低主题词噪声的影响。另外,较少的卷积核数使经KS提取的特征具有随机性,可提高模型泛化能力。根据式(7),本文用式(8)方法设置卷积核数:

$ M\_size \ge \sum\limits_{d = 1}^P {{K_d}\_size} $ (8)

其中:M_sizeM的卷积核数;Kd_size是第d个主题词集的卷积核数;P是抽取主题词集时的滑动窗口数。

4 实验结果及分析

实验数据来自NLP & CC 2017评测,包含18个类别新闻标题文本,训练集和开发集如表 1所示。

表 1 实验数据分布 Table 1 Distribution of experimental data

实验用Google开源项目Word2Vec的Skip-gram模型训练词向量,维度为200,生成词向量名称及对应语料为:

1) SoGouVec:搜狗新闻语料(SogouCS,一个月新闻数据)。

2) WiKiVec:中文WiKi百科语料。

3) MWiKiVec:中文WiKi百科与训练集混合语料。

以未经文本扩展的CNN分类[11]为Baseline;经本文方法进行副标题扩展、三元组扩展分别为SECNN1、SECNN2。分别在各组词向量上进行实验,模型描述如表 2所示。

表 2 实验模型描述 Table 2 Description of experimental models

实验试图验证文本扩展及分类模型的有效性,因此模型中同种超参数均为统一值。以分类正确率为评价指标,对未登录词的词向量用随机初始化,各模型分类性能如表 3所示。

表 3 不同模型分类正确率对比 Table 3 Comparison of classification accuracy of different models

从Baseline来看,Baseline1正确率最低,为0.7256,Baseline4为0.7424,表明用词向量初始化网络输入对分类性能有一定影响,但并不显著。但本文实验中Baseline2~Baseline4收敛速度较Baseline1快。

表 3所示,SECNN1_1~SECNN1_3的正确率较各组Baseline均显著提升,SECNN1_3正确率为0.7829,在各词向量中性能最优,比Baseline4提高5.5%,表明本文副标题扩展方法的有效性。经三元组扩展,SECNN2_1~SECNN2_3各组性能略优于SECNN1,其中MWiKiVec性能最优,为0.7942,较Baseline1提高了9.5%。

模型SECNN1_3、SECNN2_3的训练过程如图 4。由于SECNN2_3比SECNN1_3输入层特征数多,单轮训练时间较长。本文实验在FM等于FKS时,SECNN2_3有较高的收敛速度和较好的分类性能。如图 4所示,SECNN2_3在训练第37轮时正确率达到0.7942,此时SECNN1_3正确率为0.7499。本文实验中,SECNN1_3在训练第45轮时正确率接近0.78,表明SECNN2_3收敛速度比SECNN1_3更快。

图 4 模型SECNN1_3、SECNN2_3训练过程对比 Figure 4 Comparison of training process for models of SECNN1_3 and SECNN2_3

表 3来看,SECNN2的正确率整体高于SECNN1,表明本文所提的主题词扩展方法较好地控制了噪声,对原文形成了有效补充。但SECNN2正确率仅略优于SECNN1,分析其原因如下:经多窗口主题词提取,虽然提取了多主题词集,但主题词集间语义相似度大,且最终都聚焦为文本的局部关键特征,因此对原文语义的扩展仍然不足,限制了分类性能。

总体来看,副标题扩展使分类性能提升最为显著,表明双词结构扩展了文本信息量,使卷积层抽取的特征具有较好的泛化能力。MWiKiVec词向量的分类性能在各组测试中都最优。分析其原因为:由于新闻标题语法结构与普通文本存在差异,用普通文本训练的词向量,不能较好地体现新闻标题的语义。将新闻标题与普通文本混合,可适度改善词向量质量,使其更符合标题的语义特征,由此改善分类性能。另外,本文实验中,WiKi百科语料较搜狗语料的词覆盖率更高,也是基于WiKi百科语料的文本扩展性能更优的原因。

5 结语

针对中文新闻标题文本字符数少、特征稀疏,难以提高分类性能的问题,本文提出了基于词向量的短文本扩展方法。首先提取文本副标题、主题词集;再用卷积神经网络学习扩展文本的特征,进而对18个类别的新闻标题分类。结合中文WiKi百科与新闻标题的混合语料生成的词向量,在NLP & CC2017中文标题分类任务的开发集上用本文方法,得到分类正确率为79.42%,比未经扩展的CNN分类模型性能提高9.5%,并通过主题词扩展提高了模型收敛速度。

由于神经网络结构问题,本文方法中存在较多网络超参数。本文仅针对限制扩展特征以控制噪声提出了参数设置策略,但分类性能仍一定程度地依赖于网络超参数。另外,本文的主题词扩展方法聚焦于文本的局部关键特征,这种策略虽较好地控制了词扩展的噪声,也限制了分类性能,后续将针对该问题展开进一步研究。

参考文献(References)
[1] LI H, XU J. Semantic matching in search[J]. Foundations and Trends in Information Retrieval, 2014, 7(5): 343-469. DOI:10.1561/1500000035
[2] XUE X B, JEON J, CROFT W B. Retrieval models for question and answer archives[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM, 2008:475-482. http://dl.acm.org/citation.cfm?id=1390416
[3] CHEN M G, JIN X M, SHEN D. Short text classification improved by learning multi-granularity topics[C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Menlo Park, CA:AAAI Press, 2011:1776-1781. http://dl.acm.org/citation.cfm?id=2283700&preflayout=flat
[4] PHAN X H, NGUYEN L M, HORIGUCHI S. Learning to classify short and sparse text & Web with hidden topics from large-scale data collections[C]//Proceedings of the 17th International Conference on World Wide Web. New York:ACM, 2008:91-100. http://dl.acm.org/citation.cfm?id=1367510
[5] 马成龙, 姜亚松, 李艳玲, 等. 基于词矢量相似度的短文本分类[J]. 山东大学学报(理学版), 2014, 49(12): 18-22, 35. (MA C L, JIANG Y S, LI Y L, et al. Short text classification based on word embedding similarity[J]. Journal of Shandong University (Natural Science), 2014, 49(12): 18-22, 35. DOI:10.6040/j.issn.1671-9352.3.2014.295)
[6] 郑诚, 吴文岫, 代宁. 融合BTM主题特征的短文本分类方法[J]. 计算机工程与应用, 2016, 52(13): 95-100. (ZHENG C, WU W X, DAI N. Improved short text classification method based on BTM topic features[J]. Computer Engineering and Applications, 2016, 52(13): 95-100. DOI:10.3778/j.issn.1002-8331.1412-0307)
[7] 张海涛, 王斌君, 王靖亚. 基于背景重构与边缘相关短文本特征选择方法[J]. 武汉大学学报(工学版), 2016, 49(3): 469-475. (ZHANG H T, WANG B J, WANG J Y. A short text feature selection method based on context reconstruction and marginal relevance[J]. Engineering Journal of Wuhan University, 2016, 49(3): 469-475.)
[8] 高元, 刘柏嵩. 基于集成学习的标题分类算法研究[J]. 计算机应用研究, 2017, 34(4): 1004-1007. (GAO Y, LIU B S. Headlines classification method based on ensemble learning[J]. Application Research of Computers, 2017, 34(4): 1004-1007.)
[9] LE Q, MIKOLOV T. Distributed representations of sentences and documents[EB/OL].[2017-04-06]. http://proceedings.mlr.press/v32/le14.pdf.
[10] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences[EB/OL].[2017-04-06]. http://www.cs.wayne.edu/~mdong/Kalchbrenner_DCNN_ACL14.pdf.
[11] KIM Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference of Empirical Methods in Natural Language Processing. New York:ACM, 2014:1746-1751.
[12] WANG P, XU B, XU J M, et al. Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification[J]. Neurocomputing, 2016, 174(PB): 806-814.
[13] MITCHELL J, LAPATA M. Composition in distributional models of semantics[J]. Cognitive Science, 2010, 34(8): 1388-1429. DOI:10.1111/cogs.2010.34.issue-8
[14] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL].[2017-04-06]. http://www.surdeanu.info/mihai/teaching/ista555-spring15/readings/mikolov2013.pdf.
[15] MIKOLOV T, YIH W T, ZWEIG G. Linguistic regularities in continuous space word representations[EB/OL].[2017-04-06]. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/rvecs.pdf.
[16] MIKOLOV T, SUTSKEVER L, CHEN K, et al. Distributed representations of words and phrases and their compositionality[EB/OL].[2017-04-06]. http://www.cs.wayne.edu/~mdong/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf.
[17] QUAN X J, LIU G, LU Z, et al. Short text similarity based on probabilistic topics[J]. Knowledge and Information Systems, 2010, 25(3): 473-491. DOI:10.1007/s10115-009-0250-y
[18] BENGIO Y, SCHWENK H, SENÉCAL J S, et al. Neural probabilistic language models[M]. Berlin: Springer, 2006: 137-186.
[19] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791
[20] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4): 212-223.
[21] TURIAN J, RATINOV L, BENGIO Y. Word representations:a simple and general method for semi-supervised learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA:ACL, 2010:384-394.