文章快速检索     高级检索
  北京化工大学学报(自然科学版)  2019, Vol. 46 Issue (5): 94-100   DOI: 10.13543/j.bhxbzr.2019.05.014
0

引用本文  

肖雪, 刘云. 嵌入式多标签分类算法的优化研究[J]. 北京化工大学学报(自然科学版), 2019, 46(5): 94-100. DOI: 10.13543/j.bhxbzr.2019.05.014.
XIAO Xue, LIU Yun. Optimization of embedding-based multi-label classification[J]. Journal of Beijing University of Chemical Technology (Natural Science), 2019, 46(5): 94-100. DOI: 10.13543/j.bhxbzr.2019.05.014.

基金项目

国家自然科学基金(61761025)

第一作者

肖雪, 女, 1994年生, 硕士生.

通信联系人

刘云, E-mail:liuyun@kmust.edu.cn

文章历史

收稿日期:2019-05-05
嵌入式多标签分类算法的优化研究
肖雪 , 刘云     
昆明理工大学 信息工程与自动化学院, 昆明 650500
摘要:多标签分类中如何有效处理具有许多实例和大量标签的大规模数据集、补偿训练集中缺失标签以及利用未标记实例改进预测性能等问题已成为重要研究方向。提出嵌入式多标签分类(EMC)算法,首先从伪实例参数化的高斯过程(GP)中提取两组随机变换来模拟特征向量、潜在空间表示向量和标签向量之间的非线性关系映射,其次引入一组辅助变量结合专家集成(EEOE)方法补偿缺失标签,最后利用未标记实例学习随机函数的平滑映射提高预测性能。仿真结果表明,与特征识别隐式标签空间编码的多标签分类(FaLE)算法和半监督低秩映射多标签分类(SLRM)算法相比,EMC算法优化了处理大规模数据集、补偿缺失标签及利用未标记数据的能力,从而提高了类标签的预测性能,且具有良好的可扩展性,训练时间短。
关键词多标签分类    缺失标签    嵌入式    可扩展性    
Optimization of embedding-based multi-label classification
XIAO Xue , LIU Yun     
School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China
Abstract: How to deal effectively with large-scale data sets with many instances and a large number of labels, compensate for missing labels in training sets, and improve prediction performance by using unlabeled instances in multi-label classification has become an important research direction. This paper proposes an embedding-based multi-label classification (EMC) algorithm. Firstly, two sets of random transformations were extracted from the pseudo-instance parameterized Gaussian process (GP) to model the nonlinear relationship mapping between feature vectors, latent space representation vectors and label vectors, and then a set of auxiliary variables combined with an expert ensemble with an overriding expert (EEOE) was introduced. The method compensates for the missing tags, and finally uses the unlabeled instance to learn the smooth mapping of the random function to improve the prediction performance. The simulation results show that compared with the FaLE and SLRM algorithms, the EMC algorithm optimizes the ability to process large data sets, compensate for missing tags, and utilize unlabeled data, thereby improving the predictive performance of class tags, with good scalability and short training time.
Key words: multi-label classification    missing labels    embedding-based    scalability    
引言

多标签分类不同于传统的单标签分类,通常每个实例都有一组标签分配[1-2],处理起来也更为复杂,其面临的主要问题包括处理具有许多实例和大量标签的大规模数据集、有效补偿训练集中缺失的标签分配以及利用未标记实例来改进预测性能等[3-4]。许多先进的嵌入式方法通过线性降维将标签分配映射到低维空间(潜在空间),然后在输入特征上使用独立回归模型预测潜在空间中实例的表示,可以有效处理大规模数据集[5-6]。多标签数据集中,标签之间的语义模糊性容易造成标签矩阵缺失部分数据,导致训练集不能完全提供所有有效的标签分配,此问题即为标签缺失。在标签缺失的情况下,若直接利用缺失标签的数据进行训练,则训练过程很难保证预测结果的准确性[6-7]。因此在使用缺失标签的数据之前,利用特定的策略对缺失标签进行恢复是非常有必要的。

Lin等[8]提出通过特征识别隐式标签空间编码的多标签分类算法(multi-label classification via feature-aware implicit label space encoding,FaLE),该算法考虑了低维潜在空间表示和标签向量之间的线性关系,通过特征识别隐式标签空间编码来实现标签空间降维。FaLE算法虽然能处理大规模数据集,但忽略了尾标签(不经常分配给实例的标签),而在许多实际应用场景中都有数千个尾标签,丢弃这些尾标签会直接影响预测性能。Jing等[9]提出半监督低秩映射多标签分类(semi-supervised low-rank mapping learning for multi-label classification, SLRM)算法,该算法利用标签相关性补偿缺失标签,通过映射的核范数正则化有效获取标签相关性,同时在映射中引入多个正则化器来获取数据之间的内在结构,可有效补偿缺失标签。

为了有效补偿缺失标签和利用未标记实例来提升预测性能,本文提出嵌入式多标签分类(embedding-based multi-label classification,EMC)算法,首先使用高斯过程(GP)提取两组随机函数对特征向量、潜在空间表示向量和标签向量之间的非线性关系进行建模,再引入一组辅助变量结合专家集成(EEOE)方法[10]补偿缺失标签,最后利用未标记实例学习随机函数的平滑映射以提高预测性能。为了避免高斯过程的高计算成本和内存要求,通过伪实例对随机函数进行参数化,从而能有效处理具有大量实例的大规模数据集。

1 模型建立

算法执行过程的具体步骤如图 1~4所示。XCY分别表示特征向量、潜在空间的向量和标签向量。嵌入式方法在低维空间(潜在空间)中表示每个实例的标签向量,构建独立回归模型从向量X中预测向量CY

图 1 处理尾标签 Fig.1 Handling tail labels
图 2 补偿缺失标签 Fig.2 Handling missing labels
图 3 利用未标记实例 Fig.3 Exploiting unlabeled instances
图 4 近似推断 Fig.4 Approximate inference

本文模型使用高斯过程生成随机函数fcfz来模拟向量之间的非线性关系,即向量X映射到向量C的第$\ell $,记作${\mathit{\boldsymbol{c}}_\ell} \approx f_c^{(\ell)}(\mathit{\boldsymbol{X}}) $;同理,向量C映射到向量Y的第k维,记作ykfz(k)(C),其中$ f_c^{(\ell)}$(·),fz(k)(·)是随机函数。这种方法考虑了向量CY之间的非线性关系,能够在训练阶段解决尾标签被忽略的问题。

修改图 1,补偿缺失标签。由于训练集不提供某些标签分配,因此每个实例都有两个标签向量:①观察到的不完整标签向量Y∈{0, 1}K;②未观察到的完整标签向量$\mathit{\boldsymbol{Z}}\in {{\mathbb{R}}^{K}} $。完整的标签向量Z是二进制值,本文提出的概率模型中假设向量Z是实值,向量Z的第k维表示该实例的第k个标签适应性。通过EEOE方法模拟向量ZY之间的关系。

EMC算法类似于SLRM算法[9],利用未标记实例学习“平滑”映射的随机函数fcfz,将向量X转换到向量Z图 3XuCuZu表示特征向量、嵌入的标签向量和未标记实例的完整标签向量。所提算法若直接使用图 3模型会使均值场变分推断难以处理,因此引入随机变量${\mathit{\boldsymbol{\hat C}}} $${\mathit{\boldsymbol{\hat Z}}} $,如图 4所示,同时使用高斯过程隐变量模型(GP-LVM)[11]中的一个证据下限。向量C${\mathit{\boldsymbol{\hat C}}} $ (向量Z${\mathit{\boldsymbol{\hat Z}}} $)近似相同。

根据图 4,使用随机函数fc(l)(·)模拟向量X和向量${\mathit{\boldsymbol{\hat C}}} $的第$\ell $维(即${{\mathit{\boldsymbol{\hat c}}}_\ell} $)之间的关系,假设${{\mathit{\boldsymbol{\hat c}}}_\ell} \approx f_c^\ell\left( \mathit{\boldsymbol{X}} \right) $,则

$ \begin{array}{*{20}{l}} {f_c^{(\ell )}( \cdot ) \sim GP\left( {0,\kappa \left( { \cdot , \cdot ;{\sigma _c}} \right)} \right)}\\ {{{{\mathit{\boldsymbol{\hat c}}}}_\ell } \sim N\left( {{{\mathit{\boldsymbol{\hat c}}}_\ell }\left| {f_c^{(\ell )}(\mathit{\boldsymbol{X}})} \right.,{{\alpha }}_c^2} \right)} \end{array} $ (1)

假设有M个伪实例(将M设置为较小的值),需要计算M×M矩阵的逆,通过一些伪实例对fcfz中的函数进行参数化,可避免高斯过程[12]的高计算成本和内存要求,则可以处理具有大量实例的大规模数据集。

针对以上步骤(图 1~4)建模如图 5所示。

图 5 EMC算法模型 Fig.5 EMC algorithm model
2 EMC算法 2.1 补偿缺失标签

在EEOE方法中引入一组辅助随机变量(称为专家B)处理缺失标签。辅助变量对应于图 5中变量{Enkb}k, b,给定Z(n)的第k维,生成观察到的标签向量的第k维(yk(n))如下。

命题1  若1≤bBEnkb~Bernoulli(σ(λzk(n))), λR是常数,可得

$ \mathit{\boldsymbol{y}}_k^{(n)} = {E_{nk1}}\frac{{\sum\limits_{b = 1}^B {{E_{nkb}}} }}{B} $ (2)
2.2 利用未标记实例及处理大规模数据

为利用未标记实例改善预测性能,图 3中未标记实例通过学习平滑映射函数fcfz,实现特征向量Xu到潜在空间向量Cu、潜在空间向量到完整的未观察到的标签向量Zu的非线性映射。图 5模型中I部分对应于图 3的虚线框,通过引入变量XuCuZu,所提出模型学习随机函数fcfz具有平滑性,即如果向量Xj1Xj2彼此接近,则向量Cj1Cj2,及向量Zj1Zj2最有可能彼此接近。

为了避免图 3中传统高斯过程的高计算和空间成本,使用伪实例将随机函数fcfz参数化。

命题2  若

$ 1 \le \ell \le L;f_c^{\left( \ell \right)}( \cdot ) \sim GP\left( {0,\kappa \left( { \cdot , \cdot ;{\sigma _c}} \right)} \right) $ (3)

从函数$f_{c}=\left\{f_{c}^{(\ell)}(\cdot)\right\}_{\ell=1}^{L} $中生成伪类观察值$\left\{\left(S_{c}^{(m)}, u_{c m}^{(\ell)}\right)\right\} \begin{array}{l}{M_{c}} \\ {m=1}\end{array} $,且变量$ \left\{S_{c}^{(m)}\right\} \begin{array}{l}{M_{c}} \\ {m=1}\end{array}$被视为模型参数(而不是随机变量),生成变量$ \left\{u_{c m}^{(\ell)}\right\}_{m=1}^{M_{c}}$

命题3  若1≤ $\ell $L,1≤mMc

$ u_{cm}^{(\ell )} \sim N\left( {f_c^{(\ell )}\left( {s_c^{(m)}} \right),\alpha _c^2} \right) $ (4)

伪实例Mc的观察值$ \left\{\left(S_{c}^{(m)}, u_{c m}^{(\ell)}\right)\right\} \begin{array}{l}{M_{c}} \\ {m=1}\end{array}$,后验概率$ p\left(f_{c}^{(l)}(\cdot) |\left\{\left(S_{c}^{(m)}, u_{c m}^{(l)}\right)\right\}_{m=1}^{M_{c}}\right)$将是具有以下平均函数的高斯过程[13]

$ \begin{array}{l} \mu _c^{(\ell )}\left( {{\mathit{\boldsymbol{X}}^*}} \right) = \mathit{\boldsymbol{\kappa }}\left( {{\mathit{\boldsymbol{X}}^*},{S_c}} \right){\left[ {\mathit{\boldsymbol{\kappa }}\left( {{S_c},{S_c}} \right) + {\alpha ^2}{I_{{M_c} \times {M_c}}}} \right]^{ - 1}} \times \\ {\left[ {\mu _{c1}^{(\ell )}, \cdots ,\mu _{c{M_c}}^{\left( \ell \right)}} \right]^{\rm{T}}} \end{array} $ (5)

式中,$S_{c}=\left\{S_{c}^{(m)}\right\}_{m=1}^{M_{c}}, \kappa(\cdot, \cdot) $是核函数。

当给定$\left\{\left(S_{c}^{(m)}, u_{c m}^{(\ell)}\right)\right\} \begin{array}{l}{M_{c}} \\ {m=1}\end{array} $$\left\{ {{\mathit{\boldsymbol{X}}^{(n)}}} \right\}\begin{array}{*{20}{l}} {N + I}\\ {n = 1} \end{array} $,生成潜在空间表示${\mathit{\boldsymbol{\hat C}}} $

命题4   1≤n≤(N+I),1≤lL

$ \begin{array}{l} \mathit{\boldsymbol{\hat c}}_\ell ^{(n)} \sim N\left( {\mathit{\boldsymbol{\kappa }}\left( {{X^{(n)}},{S_c}} \right){{\left[ {\mathit{\boldsymbol{\kappa }}\left( {{S_c},{S_c}} \right) + {\alpha ^2}{I_{{M_c} \times {M_c}}}} \right]}^{ - 1}} \times } \right.\\ \left. {{{\left[ {\mu _{c1}^{(\ell )}, \cdots ,\mu _{c{M_c}}^{(\ell )}} \right]}^{\rm{T}}},\beta _c^2} \right) \end{array} $ (6)

式(6)证明了通过特征向量X(n)和伪实例生成${\mathit{\boldsymbol{\hat C}}}^{(n)} $$\ell $维,本文不直接使用函数fc(l)(·),可以直观地看出$ \hat{\boldsymbol{c}}_{\ell}^{(n)} \approx f_{c}^{(\ell)}\left(\boldsymbol{X}^{(n)}\right)$

通过伪样本参数化函数$f_{z}=\left\{f_{z}^{(k)}(\cdot)\right\}_{k=1}^{K} $,生成变量$ f_{z}^{(k)}(\cdot)、u_{z m}^{(k)} $${\mathit{\boldsymbol{\hat Z}}} $的过程与生成变量fc(l)(·)、ucm(l)${\mathit{\boldsymbol{\hat C}}} $的过程非常相似,可同理得出。

命题5   若1≤kK

$ f_z^{(k)}( \cdot ) \sim GP\left( {0,\kappa \left( { \cdot , \cdot ;{\sigma _z}} \right)} \right) $ (7)

命题6  若1≤kK,1≤mMz

$ u_{zm}^{(k)} \sim N\left( {f_z^{(k)}\left( {s_z^{(k)}} \right),\alpha _z^2} \right) $ (8)

利用$\left\{\left(S_{z}^{(k)}, u_{z m}^{(k)}\right)\right\} \begin{array}{l}{M_{z}} \\ {m=1}\end{array} $C(n)生成${\mathit{\boldsymbol{\hat Z}}}^{(n)} $的第k维。

命题7  若1≤n≤(N+I),1≤kK

$ \begin{array}{l} \hat z_k^{(n)} \sim N\left( {\kappa \left( {{C^{(n)}},{S_z}} \right){{\left[ {\kappa \left( {{S_z},{S_z}} \right) + \alpha _z^2{I_{{M_z} \times {M_z}}}} \right]}^{ - 1}} \times } \right.\\ \left. {{{\left[ {\mu _{z1}^{(k)}, \cdots ,\mu _{z{M_z}}^{(k)}} \right]}^{\rm{T}}},\beta _z^2} \right) \end{array} $ (9)

利用伪实例参数化函数$f_{c}=\left\{f_{c}^{(\ell)}(\cdot)\right\}_{\ell=1}^{L} $fz={fz(k)(·)}k=1K,所提算法可以处理具有大量实例的大规模数据集。利用本文算法计算Mc×Mc的逆矩阵(式(6))和Mz×Mz的逆矩阵(式(9))需要的计算时间分别为O(Mc3)和O(Mz3),内存分别为O(Mc2)和O(Mz2)。

2.3 近似推断

图 5中,若直接连接节点X(n)到节点C(n),节点C(n)到节点Z(n),会使P(C|X, fcP(Z|C, fz)项在联合分布中的高斯均值场变分推断难以处理。图 45中给定特征向量X(n)和函数fc,首先生成潜在空间表示(即向量${\mathit{\boldsymbol{\hat C}}}^{(n)} $),随后生成向量C(n)。实际上,C(n)${\mathit{\boldsymbol{\hat C}}}^{(n)} $具有相同的作用,都是第n个实例的潜在空间表示向量,同理,Z(n)${\mathit{\boldsymbol{\hat Z}}}^{(n)} $都是第n个实例的完整标签向量。证明如下。

图 3所示,P(C(n)|the rest)∞P(C(n)|X(n), UcP(Z(n)|C(n), Uc)中P(C(n)|the rest)包含exp (κ(C(n), Sc))(式(6))和exp (‖C(n)2)(式(9)),忽略变量${\mathit{\boldsymbol{\hat C}}} $${\mathit{\boldsymbol{\hat Z}}} $,高斯均值场变分推断难以实现,在指数族中计算C(n)的条件分布十分困难。改进为图 4,引入随机变量${\mathit{\boldsymbol{\hat C}}} $${\mathit{\boldsymbol{\hat Z}}} $并使用结构化变分推理,采用GP-LVM中调整证据下限值的方法。

由于本文引入辅助随机变量,所以对变分分布作出假设,以使这个下限适用于本文的概率模型,假设如下。

假设1   变分布q可以根据贝叶斯网络分解为式(10)所示的分布族

$ \begin{array}{l} q = \left[ {\prod\limits_{\ell = 1}^L q \left( {f_c^{\left( \ell \right)}} \right)} \right]\left[ {\prod\limits_{k = 1}^K q \left( {f_z^{(k)}} \right)} \right]\left[ {\prod\limits_{\ell = 1}^L q } \right.\\ \left. {\left( {\left[ {u_{c1}^{\left( \ell \right)}, \cdots ,u_{c{M_c}}^{\left( \ell \right)}} \right]} \right)} \right]\left[ {\prod\limits_{k = 1}^K q \left( {\left[ {u_{z1}^{(k)}, \cdots ,u_{z{M_z}}^{(k)}} \right]} \right)} \right]\\ \left[ {\prod\limits_{n = 1}^{N + I} q \left( {{{\mathit{\boldsymbol{\hat C}}}^{\left( n \right)}}} \right)|{U_c},{\mathit{\boldsymbol{X}}^{(n)}}} \right]\left[ {\prod\limits_{n = 1}^{N + I} q \left( {{{\mathit{\boldsymbol{\hat Z}}}^{(n)}}} \right)|{\mathit{\boldsymbol{C}}^{(n)}},{U_z}} \right]\\ \left[ {\prod\limits_{n = 1}^{N + I} q \left( {{\mathit{\boldsymbol{Z}}^{(n)}}} \right)} \right]\left[ {\prod\limits_{n = 1}^N {\prod\limits_{k = 1}^K {\prod\limits_{b = 1}^B q } } \left( {{E_{nkb}}} \right)} \right] \end{array} $ (10)

假设2   以下等式成立

$ q\left( {{{\mathit{\boldsymbol{\hat C}}}^{(n)}}|{U_c},{\mathit{\boldsymbol{X}}^{(n)}}} \right) = P\left( {{{\mathit{\boldsymbol{\hat C}}}^{(n)}}|{U_c},{\mathit{\boldsymbol{X}}^{(n)}}} \right) $ (11)
$ q\left( {{{\mathit{\boldsymbol{\hat Z}}}^{(n)}}|{U_z},{\mathit{\boldsymbol{C}}^{(n)}}} \right) = P\left( {{{\mathit{\boldsymbol{\hat Z}}}^{(n)}}|{U_z},{\mathit{\boldsymbol{C}}^{(n)}}} \right) $ (12)

式(11)和(12)右边分别对应于式(6)和(9)中的条件分布,L(q)作为GP-LVM的下限值。

定义1

$ L(q) \buildrel \Delta \over = \int q \ln \left( {\frac{P}{q}} \right){\rm{d}}l $ (13)

式中,l表示潜在空间变量。

通过式(11)和(12),可以忽略$\frac{P}{q} $中的P(${\mathit{\boldsymbol{\hat C}}}^{(n)} $|Uc, X(n))和P(${\mathit{\boldsymbol{\hat Z}}}^{(n)} $|Uz, C(n))以及分母中的q(${\mathit{\boldsymbol{\hat C}}}^{(n)} $|Uc, X(n))和q(${\mathit{\boldsymbol{\hat Z}}}^{(n)} $|Uz, C(n)),本文模型生成过程中用函数G(t, ξ)来近似函数σ(t)[14]

定义2

$ G(t,\xi ) \buildrel \Delta \over = \sigma (\xi )\exp \left\{ {\frac{{t - \xi }}{2} - \frac{{\tanh \left( {\frac{\xi }{2}} \right)}}{{4\xi }}\left( {{t^2} - {\xi ^2}} \right)} \right\} $ (14)

近似计算

$ \begin{array}{l} p\left( {{E_{nkb}}|z_k^{(n)}} \right) = \sigma {\left( {\lambda z_k^{(n)}} \right)^{{E_{nkb}}}}{\left( {1 - \sigma \left( {\lambda z_k^{(n)}} \right)} \right)^{1 - {E_{nkb}}}} = \\ {\left( {\frac{{\sigma \left( {\lambda z_k^{(n)}} \right)}}{{1 - \sigma \left( {\lambda z_k^{(n)}} \right)}}} \right)^{{E_{nkb}}}}\left( {1 - \sigma \left( {\lambda z_k^{(n)}} \right)} \right) = \exp \left( {{E_{nkb}}} \right.\\ \left. {\lambda z_k^{(n)}} \right)\sigma \left( { - \lambda z_k^{(n)}} \right) \approx \exp \left( {{E_{nkb}}\lambda z_k^{(n)}} \right)G\left( { - \lambda z_k^{(n)},{\xi _{nk}}} \right) \end{array} $ (15)

式中,$\left\{ {{\xi }_{nk}} \right\}_{n=1}^{N}\ _{k=1}^{K}$是辅助变分参数。当$ \frac{\partial L(q)}{\partial \xi_{n k}}=0$时,得$ {\xi _{nk}} = \pm \lambda {E_{Z(n) \sim q\left( {{Z^{(n)}}} \right)}}\left[ {z_k^{(n)}} \right]$

如果yk(n)=1,设置q(Z(n))的k维均值变分分布,设置伪实例$\left\{S_{c}^{(m)}\right\} \begin{array}{l}{M_{c}} \\ {m=1}\end{array} $为特征向量的子集(即{X(n)}n=1N+I),随机选择一些特征向量设置伪实例$\left\{S_{c}^{(m)}\right\} \begin{array}{l}{M_{c}} \\ {m=1}\end{array} $,在变分推理的每次迭代中更新伪实例$ \left\{ {S_z^{(m)}} \right\}\begin{array}{*{20}{l}} {{M_z}}\\ {m = 1} \end{array}$

$ S_z^{(m)} \leftarrow E\left[ {{f_c}\left( {S_c^{(m)}} \right)} \right] $ (16)

通过以上近似推断证明并使用结构化变分推断引入变量${\mathit{\boldsymbol{\hat C}}} $${\mathit{\boldsymbol{\hat Z}}} $,最后生成向量CZ

若1≤n≤(N+I),则

$ {\mathit{\boldsymbol{C}}^{(n)}} \sim N\left( {{{\mathit{\boldsymbol{\hat C}}}^{(n)}},\gamma _c^2{I_{L \times L}}} \right) $ (17)
$ {\mathit{\boldsymbol{Z}}^{(n)}} \sim N\left( {{{\mathit{\boldsymbol{\hat Z}}}^{(n)}},\gamma _z^2{I_{K \times K}}} \right) $ (18)

EMC算法伪代码如下。

输入:X

输出:Y

(1) 初始化NIFKL

(2) 引入B$\left\{E_{n l b}\right\}_{k, b} \longrightarrow \boldsymbol{y}_{k}^{(n)} $

(3) 伪实例参数化随机函数fc,计算出$ \hat{c}_{\ell}^{(n)} \approx f_{c}^{(\ell)}$ (X(n));

(4) 同理,伪实例参数化随机函数fz,计算$\mathit{\boldsymbol{\hat z}}_k^{\left( n \right)} $

(5) 生成潜在空间${\mathit{\boldsymbol{\hat C}}}^{(n)} $,利用结构化变分推理生成C(n)~N(${\mathit{\boldsymbol{\hat C}}}^{(n)} $, $\gamma_{c}^{2} I_{L \times L} $);

(6) 生成第n个实例的完整标签向量${\mathit{\boldsymbol{\hat Z}}}^{(n)} $,再生成$\boldsymbol{Z}^{(n)} \sim N\left(\hat{\boldsymbol{Z}}^{(n)}, \gamma_{z}^{2} I_{K \times K}\right) $

3 仿真分析与结果 3.1 数据集和参数设置

为了验证所提算法,选取Mulan Library[15]中的CAL500和NUS-WIDE多标签数据集进行仿真,其中NUS-WIDE是大规模数据集,用来进行可扩展性分析。表 1为仿真数据集详细信息。

下载CSV 表 1 仿真数据集 Table 1 The simulation dataset

仿真时,FaLE算法中的参数αFaLE从集合{10-1, 100, …, 104}中选择,SLRM算法中的参数λSLRMγSLRM从集合{10-3, 100, …, 103}中选择,本文EMC算法中设置的内核参数σc是FaLE中特征向量间平均欧氏距离的两倍,参数λρσz从集合{101, …, 105}中选择,参数$ B=\min \left\{\frac{E_{0}}{E_{1}}, 50\right\}$E0表示矩阵Y中值为0的元素个数,E1表示矩阵Y中值为1的元素个数,伪实例数量Mc=Mz=500。

仿真指标使用3个基于秩的评估度量,即ROC下面积曲线(AUC)[16],覆盖率[16]和精度@k[17],这些评估指标广泛用于多标签分类。

3.2 仿真结果分析 3.2.1 补偿缺失标签的性能

将实例随机分为训练数据和测试数据,在训练集中随机移除标签分配(10%~50%)。图 67中横坐标表示标签移除率,移除率为0时表现为FaLE、SLRM和EMC算法在对应数据集中的分类性能。由图可以看出,EMC算法补偿缺失标签的能力明显优于FaLE算法和SLRM算法,表明预测性能得到提升。

图 6 CAL500数据集中不同算法的AUC Fig.6 AUC of different algorithms in CAL500
图 7 CAL500数据集中不同算法的覆盖率 Fig.7 Coverage of different algorithms in CAL500
3.2.2 利用未标记实例的性能

选择一部分(10%~20%)标签向量用于训练阶段,将实例随机分为训练数据和测试数据。图 89中横坐标表示训练集中使用的标签向量分数。在此设置中,随机选择一些训练数据并仅使用这些实例的标签向量(其他实例可视为未标记数据),选择矩阵Y中一部分元素并设置为0以评估补偿缺失标签的能力。由图 89可以看出,EMC算法利用未标记实例的能力明显优于FaLE算法和SLRM算法,从而提升了预测性能。

图 8 CAL500数据集中不同算法的AUC Fig.8 AUC of different algorithms in CAL500
图 9 CAL500数据集中不同算法的覆盖率 Fig.9 Coverage of different algorithms in CAL500
3.2.3 处理尾标签的性能

对于每个数据集,根据标签频率(即分配标签的实例数量)对标签进行分类,对每个标签计算$\sum\limits_{j = 1}^k {{R_k}} @50$,其中$ R_{k} @ n$定义为

$ {R_k}@n = \frac{{TP(n,j)}}{{f(j)}} $ (19)

式中,TP(n, j)为当分配第j个标签给预测矩阵时,排名靠前的n个最相关实例的真阳性预测数,f(j)为第j个标签已分配的实例数,f(j) < f(j+1)。由图 1011可知,对于250个不频繁标签,FaLE、SLRM算法的预测性能比EMC算法差。

图 10 CAL500数据集中预测性能对比 Fig.10 Predicting performance in CAL500
图 11 NUS-WIDE数据集中不同算法的预测性能 Fig.11 Predicting performance of different algorithms in NUS-WIDE
3.2.4 可扩展性

为了评估EMC算法处理大规模数据集的能力,选用大型数据集NUS-WIDE进行仿真,选取精度P@1、精度P@3和训练时间指标进行对比,其中精度P@k表示Top-K的精度[18]

表 2可看出,EMC算法的可扩展性优于FaLE、SLRM算法。

下载CSV 表 2 NUS-WIDE数据集中不同算法性能对比 Table 2 Performance comparison of different algorithms in NUS-WIDE
4 结论

本文提出了一种嵌入式多标签分类算法(EMC),用伪实例对高斯过程(GP)提取的随机函数进行参数化,可以有效处理具有大量实例的大规模数据集,避免了高的计算成本和内存需求;引入辅助变量结合EEOE方法可以有效补偿缺失标签,利用未标记实例学习随机函数的平滑映射可提高预测性能。仿真结果表明,与FaLE算法和SLRM算法相比,所提EMC算法优化了处理大规模数据集、补偿缺失标签及利用未标记数据等能力,从而提高了类标签的预测性能,且具有良好的可扩展性,训练时间短。

符号说明

N—训练集中被标记实例数

I—未标记实例数

F—特征数

K—标签集的基数

L—潜在空间的维数($L \ll K $)

X(n)$ {{\mathbb{R}}^{F}}$ —训练集中第n个标记实例的特征向量

X(i+N)$ {{\mathbb{R}}^{F}}$—训练集中第i个未标记实例的特征向量

Y(n)∈{0, 1}K—第n个实例的标签向量

C(n)$ {{\mathbb{R}}^{L}}$—第n个标签向量Y(n)的嵌入表示向量

C(i+N)$ {{\mathbb{R}}^{L}}$—第i个未标记实例未观察到的标签向量的潜在空间表示

Z(n)$ {{\mathbb{R}}^{K}}$—向量Z(n)k维表示第k个标签对第n个标记实例的适应性

Z(i+N)$ {{\mathbb{R}}^{K}}$—向量Z(i)k维表示第k个标签对第i个未标记实例的适应性

$\boldsymbol{c}_{\ell}^{(n)} \in \mathbb{R} $ —向量c(n)$ \ell$个元素

λ$ \mathbb{R}$ —调整平滑函数斜率的一个常数,用σ(λ·)代替σ(·)

$ f_{c}=\left\{f_{c}^{(\ell)}\left\{_{\ell=1}^{L}-f_{c}^{(\ell)}: \mathbb{R}^{F} \rightarrow \mathbb{R}\right.\right.$是随机函数,将向量$\left\{\mathit{\boldsymbol{X}}^{(n)}\right\} \begin{array}{l}{N+I} \\ {n=1}\end{array} $映射到向量$\left\{\mathit{\boldsymbol{C}}^{(n)}\right\} \begin{array}{l}{N+I} \\ {n=1}\end{array} $$\ell $

$f_{z}=\left\{f_{z}^{(k)}\right\}_{k=1}^{K}-f_{z}^{(k)}: \mathbb{R}^{L} \rightarrow \mathbb{R} $是随机函数,将向量$\left\{\mathit{\boldsymbol{C}}^{(n)}\right\} \begin{array}{l}{N+I} \\ {n=1}\end{array} $映射到向量$\left\{\mathit{\boldsymbol{Y}}^{(n)}\right\} \begin{array}{l}{N+I} \\ {n=1}\end{array} $k

$M_{c}, M_{z}-f_{c}, f_{z} $中随机函数的伪实例数

$S_{c}=\left\{S_{c}^{(m)}\right\}_{m=1}^{M_{c}} $$f_{c} $函数的伪样本集,其中$S_{c}^{(m)} \in \mathbb{R}^{F}, 1 \leqslant m \leqslant M_{c} $

$ S_{z}=\left\{S_{z}^{(m)}\right\}_{m=1}^{M_{z}}$$f_{z} $函数的伪样本集,其中$ S_{z}^{(m)} \in \mathbb{R}^{L}, 1 \leqslant m \leqslant M_{z}$

${{U}_{c}}=\left\{ u_{cm}^{(\ell )} \right\}_{m=1}^{{{M}_{c}}}\ _{\ell =1}^{L} $fc函数中伪实例值的集合,$u_{cm}^{(\ell )} \approx f_c^{(\ell )}\left( {s_c^{(m)}} \right) $

$ {{U}_{z}}=\left\{ u_{zm}^{(k)} \right\}_{m=1}^{{{M}_{z}}}\ _{k=1}^{L}$fz函数中伪实例值的集合,$u_{zm}^{(k)} \approx f_z^{(k)}\left( {s_z^{(m)}} \right) $

κ(·, ·;σ)—具有平滑参数σ的径向基核函数

参考文献
[1]
SUN Z W, HU K Y, HU T, et al. Fast multi-label low-rank linearized SVM classification algorithm based on approximate extreme points[J]. IEEE Access, 2018, 6: 42319-42326. DOI:10.1109/ACCESS.2018.2854831
[2]
李锋, 杨有龙. 基于标签特征和相关性的多标签分类算法[J]. 计算机工程与应用, 2019, 55(4): 48-55.
LI F, YANG Y L. Multi-label classification algorithm based on label-specific features and label correlation[J]. Computer Engineering and Applications, 2019, 55(4): 48-55. (in Chinese)
[3]
WU Q Y, TAN M K, SONG H J, et al. ML-FOREST:a multi-label tree ensemble method for multi-label classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(10): 2665-2680. DOI:10.1109/TKDE.2016.2581161
[4]
NAZMI S, RAZEGHI-JAHROMI M, HOMAIFAR A. Multi-label classification with weighted labels using learning classifier systems[C]//2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA). Cancun, 2017: 275-280.
[5]
孙圣姿, 万源, 曾成. 自适应嵌入的半监督多视角特征降维方法[J]. 计算机应用, 2018, 38(12): 3391-3398.
SUN S Z, WAN Y, ZENG C. Semi-supervised adaptive multi-view embedding method for feature dimension reduction[J]. Journal of Computer Applications, 2018, 38(12): 3391-3398. (in Chinese) DOI:10.11772/j.issn.1001-9081.2018051050
[6]
LI X, SHEN B, LIU B D, et al. Ranking-preserving low-rank factorization for image annotation with missing labels[J]. IEEE Transactions on Multimedia, 2018, 20(5): 1169-1178. DOI:10.1109/TMM.2017.2761985
[7]
HUANG J, QIN F, ZHENG X, et al. Learning label-specific features for multi-label classification with missing labels[C]//2018 IEEE Fourth International Conference on Multimedia Big Data (BigMM). Xi'an, 2018: 1-5.
[8]
LIN Z J, DING G G, HU M Q, et al. Multi-label classification via feature-aware implicit label space encoding[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, 2014: 325-333.
[9]
JING L P, YANG L, YU J, et al. Semi-supervised low-rank mapping learning for multi-label classification[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, 2015: 1483-1491.
[10]
AKBARNEJAD A, BAGHSHAH M S. A probabilistic multi-label classifier with missing and noisy labels handling capability[J]. Pattern Recognition Letters, 2017, 89: 18-24. DOI:10.1016/j.patrec.2017.01.022
[11]
KO J, FOX D. Learning GP-Bayes filters via Gaussian process latent variable models[J]. Autonomous Robots, 2011, 30(1): 3-23.
[12]
CHEN S Q, AMMAR H B, TUYLS K, et al. Optimizing complex automated negotiation using sparse pseudo-input Gaussian processes[C]//International Conference on Autonomous Agents & Multi-agent Systems. Taipei, 2013.
[13]
RASMUSSEN C E, NICKISCH H. Gaussian processes for machine learning (GPML) toolbox[J]. Journal of Machine Learning Research, 2010, 11: 3011-3015.
[14]
BISHOP C M, SVENSÉN M. Bayesian hierarchical mixtures of experts[C]//Proceedings of the Nineteenth Conference on Uncertainty in Artificial Intelligence. Acapulco, 2012: 57-64.
[15]
TSOUMAKAS G, SPYROMITROS-XIOUFIS E, VILCEK J, et al. Mulan:a java library for multi-label learning[J]. Journal of Machine Learning Research, 2011, 12: 2411-2414.
[16]
SOROWER M. A literature survey on algorithms for multi-label learning[D]. Corvallis: Oregon State University, 2010.
[17]
YU H F, JAIN P, KAR P, et al. Large-scale multi-label learning with missing labels[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, 2014: 593-601.
[18]
WU B Y, LIU Z L, WANG S F, et al. Multi-label learning with missing labels[C]//2014 22nd International Conference on Pattern Recognition. Stockholm, 2014: 1964-1968.