多标签分类不同于传统的单标签分类,通常每个实例都有一组标签分配[1-2],处理起来也更为复杂,其面临的主要问题包括处理具有许多实例和大量标签的大规模数据集、有效补偿训练集中缺失的标签分配以及利用未标记实例来改进预测性能等[3-4]。许多先进的嵌入式方法通过线性降维将标签分配映射到低维空间(潜在空间),然后在输入特征上使用独立回归模型预测潜在空间中实例的表示,可以有效处理大规模数据集[5-6]。多标签数据集中,标签之间的语义模糊性容易造成标签矩阵缺失部分数据,导致训练集不能完全提供所有有效的标签分配,此问题即为标签缺失。在标签缺失的情况下,若直接利用缺失标签的数据进行训练,则训练过程很难保证预测结果的准确性[6-7]。因此在使用缺失标签的数据之前,利用特定的策略对缺失标签进行恢复是非常有必要的。
Lin等[8]提出通过特征识别隐式标签空间编码的多标签分类算法(multi-label classification via feature-aware implicit label space encoding,FaLE),该算法考虑了低维潜在空间表示和标签向量之间的线性关系,通过特征识别隐式标签空间编码来实现标签空间降维。FaLE算法虽然能处理大规模数据集,但忽略了尾标签(不经常分配给实例的标签),而在许多实际应用场景中都有数千个尾标签,丢弃这些尾标签会直接影响预测性能。Jing等[9]提出半监督低秩映射多标签分类(semi-supervised low-rank mapping learning for multi-label classification, SLRM)算法,该算法利用标签相关性补偿缺失标签,通过映射的核范数正则化有效获取标签相关性,同时在映射中引入多个正则化器来获取数据之间的内在结构,可有效补偿缺失标签。
为了有效补偿缺失标签和利用未标记实例来提升预测性能,本文提出嵌入式多标签分类(embedding-based multi-label classification,EMC)算法,首先使用高斯过程(GP)提取两组随机函数对特征向量、潜在空间表示向量和标签向量之间的非线性关系进行建模,再引入一组辅助变量结合专家集成(EEOE)方法[10]补偿缺失标签,最后利用未标记实例学习随机函数的平滑映射以提高预测性能。为了避免高斯过程的高计算成本和内存要求,通过伪实例对随机函数进行参数化,从而能有效处理具有大量实例的大规模数据集。
1 模型建立算法执行过程的具体步骤如图 1~4所示。X、C和Y分别表示特征向量、潜在空间的向量和标签向量。嵌入式方法在低维空间(潜在空间)中表示每个实例的标签向量,构建独立回归模型从向量X中预测向量C和Y。
本文模型使用高斯过程生成随机函数fc和fz来模拟向量之间的非线性关系,即向量X映射到向量C的第
修改图 1,补偿缺失标签。由于训练集不提供某些标签分配,因此每个实例都有两个标签向量:①观察到的不完整标签向量Y∈{0, 1}K;②未观察到的完整标签向量
EMC算法类似于SLRM算法[9],利用未标记实例学习“平滑”映射的随机函数fc和fz,将向量X转换到向量Z。图 3中Xu,Cu和Zu表示特征向量、嵌入的标签向量和未标记实例的完整标签向量。所提算法若直接使用图 3模型会使均值场变分推断难以处理,因此引入随机变量
根据图 4,使用随机函数fc(l)(·)模拟向量X和向量
$ \begin{array}{*{20}{l}} {f_c^{(\ell )}( \cdot ) \sim GP\left( {0,\kappa \left( { \cdot , \cdot ;{\sigma _c}} \right)} \right)}\\ {{{{\mathit{\boldsymbol{\hat c}}}}_\ell } \sim N\left( {{{\mathit{\boldsymbol{\hat c}}}_\ell }\left| {f_c^{(\ell )}(\mathit{\boldsymbol{X}})} \right.,{{\alpha }}_c^2} \right)} \end{array} $ | (1) |
假设有M个伪实例(将M设置为较小的值),需要计算M×M矩阵的逆,通过一些伪实例对fc和fz中的函数进行参数化,可避免高斯过程[12]的高计算成本和内存要求,则可以处理具有大量实例的大规模数据集。
在EEOE方法中引入一组辅助随机变量(称为专家B)处理缺失标签。辅助变量对应于图 5中变量{Enkb}k, b,给定Z(n)的第k维,生成观察到的标签向量的第k维(yk(n))如下。
命题1 若1≤b≤B:Enkb~Bernoulli(σ(λzk(n))), λ∈R是常数,可得
$ \mathit{\boldsymbol{y}}_k^{(n)} = {E_{nk1}}\frac{{\sum\limits_{b = 1}^B {{E_{nkb}}} }}{B} $ | (2) |
为利用未标记实例改善预测性能,图 3中未标记实例通过学习平滑映射函数fc和fz,实现特征向量Xu到潜在空间向量Cu、潜在空间向量到完整的未观察到的标签向量Zu的非线性映射。图 5模型中I部分对应于图 3的虚线框,通过引入变量Xu,Cu和Zu,所提出模型学习随机函数fc和fz具有平滑性,即如果向量Xj1和Xj2彼此接近,则向量Cj1和Cj2,及向量Zj1和Zj2最有可能彼此接近。
为了避免图 3中传统高斯过程的高计算和空间成本,使用伪实例将随机函数fc、fz参数化。
命题2 若
$ 1 \le \ell \le L;f_c^{\left( \ell \right)}( \cdot ) \sim GP\left( {0,\kappa \left( { \cdot , \cdot ;{\sigma _c}} \right)} \right) $ | (3) |
从函数
命题3 若1≤
$ u_{cm}^{(\ell )} \sim N\left( {f_c^{(\ell )}\left( {s_c^{(m)}} \right),\alpha _c^2} \right) $ | (4) |
伪实例Mc的观察值
$ \begin{array}{l} \mu _c^{(\ell )}\left( {{\mathit{\boldsymbol{X}}^*}} \right) = \mathit{\boldsymbol{\kappa }}\left( {{\mathit{\boldsymbol{X}}^*},{S_c}} \right){\left[ {\mathit{\boldsymbol{\kappa }}\left( {{S_c},{S_c}} \right) + {\alpha ^2}{I_{{M_c} \times {M_c}}}} \right]^{ - 1}} \times \\ {\left[ {\mu _{c1}^{(\ell )}, \cdots ,\mu _{c{M_c}}^{\left( \ell \right)}} \right]^{\rm{T}}} \end{array} $ | (5) |
式中,
当给定
命题4 1≤n≤(N+I),1≤l≤L:
$ \begin{array}{l} \mathit{\boldsymbol{\hat c}}_\ell ^{(n)} \sim N\left( {\mathit{\boldsymbol{\kappa }}\left( {{X^{(n)}},{S_c}} \right){{\left[ {\mathit{\boldsymbol{\kappa }}\left( {{S_c},{S_c}} \right) + {\alpha ^2}{I_{{M_c} \times {M_c}}}} \right]}^{ - 1}} \times } \right.\\ \left. {{{\left[ {\mu _{c1}^{(\ell )}, \cdots ,\mu _{c{M_c}}^{(\ell )}} \right]}^{\rm{T}}},\beta _c^2} \right) \end{array} $ | (6) |
式(6)证明了通过特征向量X(n)和伪实例生成
通过伪样本参数化函数
命题5 若1≤k≤K:
$ f_z^{(k)}( \cdot ) \sim GP\left( {0,\kappa \left( { \cdot , \cdot ;{\sigma _z}} \right)} \right) $ | (7) |
命题6 若1≤k≤K,1≤m≤Mz:
$ u_{zm}^{(k)} \sim N\left( {f_z^{(k)}\left( {s_z^{(k)}} \right),\alpha _z^2} \right) $ | (8) |
利用
命题7 若1≤n≤(N+I),1≤k≤K:
$ \begin{array}{l} \hat z_k^{(n)} \sim N\left( {\kappa \left( {{C^{(n)}},{S_z}} \right){{\left[ {\kappa \left( {{S_z},{S_z}} \right) + \alpha _z^2{I_{{M_z} \times {M_z}}}} \right]}^{ - 1}} \times } \right.\\ \left. {{{\left[ {\mu _{z1}^{(k)}, \cdots ,\mu _{z{M_z}}^{(k)}} \right]}^{\rm{T}}},\beta _z^2} \right) \end{array} $ | (9) |
利用伪实例参数化函数
图 5中,若直接连接节点X(n)到节点C(n),节点C(n)到节点Z(n),会使P(C|X, fc)×P(Z|C, fz)项在联合分布中的高斯均值场变分推断难以处理。图 4、5中给定特征向量X(n)和函数fc,首先生成潜在空间表示(即向量
如图 3所示,P(C(n)|the rest)∞P(C(n)|X(n), Uc)×P(Z(n)|C(n), Uc)中P(C(n)|the rest)包含exp (κ(C(n), Sc))(式(6))和exp (‖C(n)‖2)(式(9)),忽略变量
由于本文引入辅助随机变量,所以对变分分布作出假设,以使这个下限适用于本文的概率模型,假设如下。
假设1 变分布q可以根据贝叶斯网络分解为式(10)所示的分布族
$ \begin{array}{l} q = \left[ {\prod\limits_{\ell = 1}^L q \left( {f_c^{\left( \ell \right)}} \right)} \right]\left[ {\prod\limits_{k = 1}^K q \left( {f_z^{(k)}} \right)} \right]\left[ {\prod\limits_{\ell = 1}^L q } \right.\\ \left. {\left( {\left[ {u_{c1}^{\left( \ell \right)}, \cdots ,u_{c{M_c}}^{\left( \ell \right)}} \right]} \right)} \right]\left[ {\prod\limits_{k = 1}^K q \left( {\left[ {u_{z1}^{(k)}, \cdots ,u_{z{M_z}}^{(k)}} \right]} \right)} \right]\\ \left[ {\prod\limits_{n = 1}^{N + I} q \left( {{{\mathit{\boldsymbol{\hat C}}}^{\left( n \right)}}} \right)|{U_c},{\mathit{\boldsymbol{X}}^{(n)}}} \right]\left[ {\prod\limits_{n = 1}^{N + I} q \left( {{{\mathit{\boldsymbol{\hat Z}}}^{(n)}}} \right)|{\mathit{\boldsymbol{C}}^{(n)}},{U_z}} \right]\\ \left[ {\prod\limits_{n = 1}^{N + I} q \left( {{\mathit{\boldsymbol{Z}}^{(n)}}} \right)} \right]\left[ {\prod\limits_{n = 1}^N {\prod\limits_{k = 1}^K {\prod\limits_{b = 1}^B q } } \left( {{E_{nkb}}} \right)} \right] \end{array} $ | (10) |
假设2 以下等式成立
$ q\left( {{{\mathit{\boldsymbol{\hat C}}}^{(n)}}|{U_c},{\mathit{\boldsymbol{X}}^{(n)}}} \right) = P\left( {{{\mathit{\boldsymbol{\hat C}}}^{(n)}}|{U_c},{\mathit{\boldsymbol{X}}^{(n)}}} \right) $ | (11) |
$ q\left( {{{\mathit{\boldsymbol{\hat Z}}}^{(n)}}|{U_z},{\mathit{\boldsymbol{C}}^{(n)}}} \right) = P\left( {{{\mathit{\boldsymbol{\hat Z}}}^{(n)}}|{U_z},{\mathit{\boldsymbol{C}}^{(n)}}} \right) $ | (12) |
式(11)和(12)右边分别对应于式(6)和(9)中的条件分布,L(q)作为GP-LVM的下限值。
定义1
$ L(q) \buildrel \Delta \over = \int q \ln \left( {\frac{P}{q}} \right){\rm{d}}l $ | (13) |
式中,l表示潜在空间变量。
通过式(11)和(12),可以忽略
定义2
$ G(t,\xi ) \buildrel \Delta \over = \sigma (\xi )\exp \left\{ {\frac{{t - \xi }}{2} - \frac{{\tanh \left( {\frac{\xi }{2}} \right)}}{{4\xi }}\left( {{t^2} - {\xi ^2}} \right)} \right\} $ | (14) |
近似计算
$ \begin{array}{l} p\left( {{E_{nkb}}|z_k^{(n)}} \right) = \sigma {\left( {\lambda z_k^{(n)}} \right)^{{E_{nkb}}}}{\left( {1 - \sigma \left( {\lambda z_k^{(n)}} \right)} \right)^{1 - {E_{nkb}}}} = \\ {\left( {\frac{{\sigma \left( {\lambda z_k^{(n)}} \right)}}{{1 - \sigma \left( {\lambda z_k^{(n)}} \right)}}} \right)^{{E_{nkb}}}}\left( {1 - \sigma \left( {\lambda z_k^{(n)}} \right)} \right) = \exp \left( {{E_{nkb}}} \right.\\ \left. {\lambda z_k^{(n)}} \right)\sigma \left( { - \lambda z_k^{(n)}} \right) \approx \exp \left( {{E_{nkb}}\lambda z_k^{(n)}} \right)G\left( { - \lambda z_k^{(n)},{\xi _{nk}}} \right) \end{array} $ | (15) |
式中,
如果yk(n)=1,设置q(Z(n))的k维均值变分分布,设置伪实例
$ S_z^{(m)} \leftarrow E\left[ {{f_c}\left( {S_c^{(m)}} \right)} \right] $ | (16) |
通过以上近似推断证明并使用结构化变分推断引入变量
若1≤n≤(N+I),则
$ {\mathit{\boldsymbol{C}}^{(n)}} \sim N\left( {{{\mathit{\boldsymbol{\hat C}}}^{(n)}},\gamma _c^2{I_{L \times L}}} \right) $ | (17) |
$ {\mathit{\boldsymbol{Z}}^{(n)}} \sim N\left( {{{\mathit{\boldsymbol{\hat Z}}}^{(n)}},\gamma _z^2{I_{K \times K}}} \right) $ | (18) |
EMC算法伪代码如下。
输入:X
输出:Y
(1) 初始化N,I,F,K,L;
(2) 引入B和
(3) 伪实例参数化随机函数fc,计算出
(4) 同理,伪实例参数化随机函数fz,计算
(5) 生成潜在空间
(6) 生成第n个实例的完整标签向量
为了验证所提算法,选取Mulan Library[15]中的CAL500和NUS-WIDE多标签数据集进行仿真,其中NUS-WIDE是大规模数据集,用来进行可扩展性分析。表 1为仿真数据集详细信息。
仿真时,FaLE算法中的参数αFaLE从集合{10-1, 100, …, 104}中选择,SLRM算法中的参数λSLRM和γSLRM从集合{10-3, 100, …, 103}中选择,本文EMC算法中设置的内核参数σc是FaLE中特征向量间平均欧氏距离的两倍,参数λ、ρ和σz从集合{101, …, 105}中选择,参数
仿真指标使用3个基于秩的评估度量,即ROC下面积曲线(AUC)[16],覆盖率[16]和精度@k[17],这些评估指标广泛用于多标签分类。
3.2 仿真结果分析 3.2.1 补偿缺失标签的性能将实例随机分为训练数据和测试数据,在训练集中随机移除标签分配(10%~50%)。图 6、7中横坐标表示标签移除率,移除率为0时表现为FaLE、SLRM和EMC算法在对应数据集中的分类性能。由图可以看出,EMC算法补偿缺失标签的能力明显优于FaLE算法和SLRM算法,表明预测性能得到提升。
选择一部分(10%~20%)标签向量用于训练阶段,将实例随机分为训练数据和测试数据。图 8、9中横坐标表示训练集中使用的标签向量分数。在此设置中,随机选择一些训练数据并仅使用这些实例的标签向量(其他实例可视为未标记数据),选择矩阵Y中一部分元素并设置为0以评估补偿缺失标签的能力。由图 8、9可以看出,EMC算法利用未标记实例的能力明显优于FaLE算法和SLRM算法,从而提升了预测性能。
对于每个数据集,根据标签频率(即分配标签的实例数量)对标签进行分类,对每个标签计算
$ {R_k}@n = \frac{{TP(n,j)}}{{f(j)}} $ | (19) |
式中,TP(n, j)为当分配第j个标签给预测矩阵时,排名靠前的n个最相关实例的真阳性预测数,f(j)为第j个标签已分配的实例数,f(j) < f(j+1)。由图 10、11可知,对于250个不频繁标签,FaLE、SLRM算法的预测性能比EMC算法差。
为了评估EMC算法处理大规模数据集的能力,选用大型数据集NUS-WIDE进行仿真,选取精度P@1、精度P@3和训练时间指标进行对比,其中精度P@k表示Top-K的精度[18]。
从表 2可看出,EMC算法的可扩展性优于FaLE、SLRM算法。
本文提出了一种嵌入式多标签分类算法(EMC),用伪实例对高斯过程(GP)提取的随机函数进行参数化,可以有效处理具有大量实例的大规模数据集,避免了高的计算成本和内存需求;引入辅助变量结合EEOE方法可以有效补偿缺失标签,利用未标记实例学习随机函数的平滑映射可提高预测性能。仿真结果表明,与FaLE算法和SLRM算法相比,所提EMC算法优化了处理大规模数据集、补偿缺失标签及利用未标记数据等能力,从而提高了类标签的预测性能,且具有良好的可扩展性,训练时间短。
符号说明
N—训练集中被标记实例数
I—未标记实例数
F—特征数
K—标签集的基数
L—潜在空间的维数(
X(n)∈
X(i+N)∈
Y(n)∈{0, 1}K—第n个实例的标签向量
C(n)∈
C(i+N)∈
Z(n)∈
Z(i+N)∈
λ∈
κ(·, ·;σ)—具有平滑参数σ的径向基核函数
[1] |
SUN Z W, HU K Y, HU T, et al. Fast multi-label low-rank linearized SVM classification algorithm based on approximate extreme points[J]. IEEE Access, 2018, 6: 42319-42326. DOI:10.1109/ACCESS.2018.2854831 |
[2] |
李锋, 杨有龙. 基于标签特征和相关性的多标签分类算法[J]. 计算机工程与应用, 2019, 55(4): 48-55. LI F, YANG Y L. Multi-label classification algorithm based on label-specific features and label correlation[J]. Computer Engineering and Applications, 2019, 55(4): 48-55. (in Chinese) |
[3] |
WU Q Y, TAN M K, SONG H J, et al. ML-FOREST:a multi-label tree ensemble method for multi-label classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(10): 2665-2680. DOI:10.1109/TKDE.2016.2581161 |
[4] |
NAZMI S, RAZEGHI-JAHROMI M, HOMAIFAR A. Multi-label classification with weighted labels using learning classifier systems[C]//2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA). Cancun, 2017: 275-280.
|
[5] |
孙圣姿, 万源, 曾成. 自适应嵌入的半监督多视角特征降维方法[J]. 计算机应用, 2018, 38(12): 3391-3398. SUN S Z, WAN Y, ZENG C. Semi-supervised adaptive multi-view embedding method for feature dimension reduction[J]. Journal of Computer Applications, 2018, 38(12): 3391-3398. (in Chinese) DOI:10.11772/j.issn.1001-9081.2018051050 |
[6] |
LI X, SHEN B, LIU B D, et al. Ranking-preserving low-rank factorization for image annotation with missing labels[J]. IEEE Transactions on Multimedia, 2018, 20(5): 1169-1178. DOI:10.1109/TMM.2017.2761985 |
[7] |
HUANG J, QIN F, ZHENG X, et al. Learning label-specific features for multi-label classification with missing labels[C]//2018 IEEE Fourth International Conference on Multimedia Big Data (BigMM). Xi'an, 2018: 1-5.
|
[8] |
LIN Z J, DING G G, HU M Q, et al. Multi-label classification via feature-aware implicit label space encoding[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, 2014: 325-333.
|
[9] |
JING L P, YANG L, YU J, et al. Semi-supervised low-rank mapping learning for multi-label classification[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, 2015: 1483-1491.
|
[10] |
AKBARNEJAD A, BAGHSHAH M S. A probabilistic multi-label classifier with missing and noisy labels handling capability[J]. Pattern Recognition Letters, 2017, 89: 18-24. DOI:10.1016/j.patrec.2017.01.022 |
[11] |
KO J, FOX D. Learning GP-Bayes filters via Gaussian process latent variable models[J]. Autonomous Robots, 2011, 30(1): 3-23. |
[12] |
CHEN S Q, AMMAR H B, TUYLS K, et al. Optimizing complex automated negotiation using sparse pseudo-input Gaussian processes[C]//International Conference on Autonomous Agents & Multi-agent Systems. Taipei, 2013.
|
[13] |
RASMUSSEN C E, NICKISCH H. Gaussian processes for machine learning (GPML) toolbox[J]. Journal of Machine Learning Research, 2010, 11: 3011-3015. |
[14] |
BISHOP C M, SVENSÉN M. Bayesian hierarchical mixtures of experts[C]//Proceedings of the Nineteenth Conference on Uncertainty in Artificial Intelligence. Acapulco, 2012: 57-64.
|
[15] |
TSOUMAKAS G, SPYROMITROS-XIOUFIS E, VILCEK J, et al. Mulan:a java library for multi-label learning[J]. Journal of Machine Learning Research, 2011, 12: 2411-2414. |
[16] |
SOROWER M. A literature survey on algorithms for multi-label learning[D]. Corvallis: Oregon State University, 2010.
|
[17] |
YU H F, JAIN P, KAR P, et al. Large-scale multi-label learning with missing labels[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, 2014: 593-601.
|
[18] |
WU B Y, LIU Z L, WANG S F, et al. Multi-label learning with missing labels[C]//2014 22nd International Conference on Pattern Recognition. Stockholm, 2014: 1964-1968.
|