2. 武汉大学 遥感信息工程学院, 武汉 430079;
3. 国网湖北省电力公司 检修公司, 武汉 430077
2. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan Hubei 430079, China;
3. Maintenance Company, State Grid Hubei Electric Power Company, Wuhan Hubei 430077, China
高光谱遥感图像分类是图像处理技术中重要的一类技术,其标签样本的获取十分困难,所以如何利用有限的训练样本获得更优的分类模型是一个备受关注的问题[1]。近几年,随着机器学习的不断发展,越来越多的机器学习算法,如深度学习[2]、迁移学习[3]、流行学习[4]和主动学习已经被应用于高光谱遥感图像分类问题中[5]。其中主动学习算法通过筛选高质量的训练样本,从而在有限数量的训练样本帮助下获得更优的分类模型[6],相比于被动学习的随机选择样本进行标注,主动学习算法能通过优化选择训练样本,使得训练集合的构成更有目的性,避免了盲目标注的弊病,提高了分类精度,受到了学界的广泛关注。然而,能够成为训练样本的标签数据毕竟是少数,在高光谱图像数据中还有大量未标记信息没有被利用。因此,如何利用未标记的数据来辅助标签数据,并设计出高效的半监督的主动学习算法是一个重要方向[7]。实际上,部分未标注数据中可以被分类器预测正确,对于这种未标签信息如果加入训练样本集,将其预测标签当作真实标签赋给它们,可能大大降低人工标记的成本[8]。
基于上述考虑,本文提出了一种结合未标签信息的主动学习算法,通过可信度和信息量的双重筛选,从未标签数据中选出信息量大且预测标签可信度高的未标签数据,将其预测标签当作真实标签使用,并组建新的训练样本集,从而训练得到更优质的分类模型。
1 主动学习算法主动学习的目的就在于选择出最具标注价值的样本,获得最优的训练样本集,从而达到优化分类模型的效果。这个概念最早由Angluin[9]在1988年提出,随着对其研究的不断深入,主动学习技术已被广泛应用于各个领域。Tuia等[10-11]对多种经典的主动学习算法在高光谱遥感影像分类上的应用作了归纳,其中包括边缘取样主动学习算法、基于支持向量的边缘取样算法、熵值装袋查询算法和基于后验概率取样算法BT(Breaking Ties)。另外,Di等[12-13]在2012年提出多视图的主动学习算法,通过不同的波段子集组合投票表示样本点的分歧度从而得到其标注价值。Crawford等[14]对以上文献中经典的多种主动学习算法进行了总结论述,并将它们作用于高光谱遥感影像数据进行实验分析。实验证明,主动学习算法的应用可以显著地降低样本标注成本。
就高光谱遥感图像的分类问题而言,主动学习算法应用的基本流程如图 1所示,其中:C为一个或多个分类器;L为有标签的训练样本集;Q为待标记样本选择策略,用于查找未标签样本中信息量大的能帮助提高分类精度的样本;U为整个未标签样本集;S为标注专家,负责对Q中筛选出的候选样本进行人工标记。由图 1可知,主动学习算法的核心是待标记样本点的选择策略。选择策略的目的就是选出对分类器性能和分类效果提高有贡献的信息量大的待标记样本点。
主动学习算法中,BT算法是建立后验概率之上的算法,所以,所属每类概率的获得是算法实现的基础。就每个样本点xi属于w类的概率p而言,对于支持向量机(Support Vector Machine, SVM)的决策函数输出,可以使用sigmoid函数估计所得,如式(1) 所示。
$ p({y_i}^* = w|{x_i}) = \frac{1}{{1 + {\rm{exp}}\left\{ {Af({x_i}, w) + B} \right\}}} $ | (1) |
其中A和B都是估计值[14]。得到每个样本点所属每类的概率之后,根据BT算法的思想,首先通过训练集构造SVM分类器,再按照式(1) 得到将候选集C中每个样本点属于各个类别(分类器中N个分类类别)的概率,然后对样本点最大概率和次大概率差值排序,最后根据式(2) 选取部分差值最小的点作为待标记样本点,标记后加入到训练样本集L中。
$ \begin{array}{l} \hat x = \mathop {{\rm{arg}}\;{\rm{min}}}\limits_{{x_i} \in U} {\rm{\{ }}\mathop {{\rm{max}}}\limits_{w \in N} \mathit{\boldsymbol{p}}(y_i^* = w|{x_i})-\\ \mathop {{\rm{max}}}\limits_{w \in N, {\rm{w}} \ne {w_{{\mathit{\boldsymbol{p}}_{{\rm{max}}}}}}} \mathit{\boldsymbol{p}}\left( {y_i^* = w|{x_i}} \right){\rm{\} }} \end{array} $ | (2) |
传统的主动学习算法的每次迭代过程,都有大量不满足选择策略Q的未标签样本被重新放回至未标签集U,并在下一次迭代中又重新参与计算,这样大大增加了算法的时间复杂度和计算复杂度。另一方面,部分未标签样本同样可以提供有效的信息,却未能被有效利用。因此,本文提出结合未标签信息的主动学习算法。在原主动学习算法流程之上,针对不满足条件的未标签样本R,采用未标签样本选择策略Q′进行未标签样本的筛选,将满足条件的预测标签作为真实标签,使这些未标签样本成为标签样本,与人工标签样本一同加入训练集L训练,更新分类模型,算法流程如图 2所示。
由图 2可得,结合未标签信息的主动学习算法的核心在于未标签样本选择策略Q′。选出的未标签样本的预测标签的可靠性会极大影响训练样本集的整体质量。另外,如果筛选出信息量小的未标签样本太多,也会削弱大信息量样本的作用。更糟糕的是,那些信息量小的未标签样本一旦被预测错误,给分类器带来严重错误的训练信息。所以,为了优化分类器,被选出的未标签样本及赋予它的预测标签必须同时具有可靠性和较高的信息量。而其中信息量由不确定度来判断,不确定度越高的像素点被错分的概率就越大,就代表其越难被判断为具体哪一类别,其信息量也就越大。
针对上述问题,为了筛选出高质量的未标签样本,本文设计了如下未标签信息的选择策略Q′,这个策略包括三个重要的过程:K近邻一致性判断,前后预测一致性判断和信息量判断。具体流程如图 3所示,前两个筛选步骤保证了所选样本预测标签的可靠性,最后一个筛选步骤保证了所选样本的具备较高的信息量,优化分类模型。
1)K近邻一致性判断策略:由K近邻分类算法思想衍生而来[15],K近邻分类算法是一种非常经典的分类算法,该算法认为,两个光谱角距离较小的像素相似度较高,被归于同一类别的可能性也较高。故在这里K近邻的思想可以被用于保证未标签样本预测标签的可靠性。其方法是将待标记样本的预测标签和其相似度最高的K个近邻的预测或者真实标签进行比对,如果全部一致,就说明该未标记样本的预测标签可信度高,其运算式可表示为式(3)。这里相似度的度量也是采取光谱角距离。对未标签样本u来说,不一致系数的计算如式(1),其中k为所选近邻个数,fl(u)和fl(xi)为u和xi的预测或真实标签。
$ dis = \sum\limits_{i = 1}^k {\delta {\rm{(}}{f_l}{\rm{(}}u{\rm{)}} \ne {f_l}{\rm{(}}{x_i}{\rm{))}}} $ | (3) |
2) 前后预测一致性判断策略:K近邻一致性判断是横向比较,该一致性判断是纵向比较,进一步确保未标签样本预测标签的可靠性,通过比较未标签样本当前和上一次迭代过程中分类器对其标签预测的结果进行判断[8]。如果近邻标签和该未标签样本预测标签全部表现一致,就说明这个未标签样本的预测标签可靠。因为前后两次所训练出的分类器,对该点的类别判定一致,那么该点预测标签的可靠性便可进一步得到保证。
3) 信息量估计策略:虽然前两步筛选所得的未标签样本的预测标签正确性可以保证,但是这些点的信息量没有被评估,如果其中信息量小的未标签样本太多,会削弱少数的信息量大的样本的作用,而真正能为分类器的优化和分类精度的提高做贡献的是那些信息量大的样本。所以,需要利用主动学习算法的思想对那些预测标签正确性有保障的未标签样本进行信息量的筛选。利用式(1) 和(2) 对第1)、2) 步已经筛选出来未标签样本点进行信息量的评估和排序,取信息量较高的未标签信息加入到训练样本集中。
3 实验与结果分析 3.1 数据介绍本文选用博茨瓦纳数据(BOTswana, BOT)和美国波士顿数据(简称KSC)为实验数据。BOT于2001年5月在Okavango Delta、Botswana地区采集,该地区包括湿地和高地两个生态系统,光谱范围是357~2 576 nm,光谱分辨率为10 nm,空间分辨率为30 m×30 m,共145个波段。KSC于1996年3月美国肯尼迪航天中心由可见光红外成像光谱仪拍摄,该地区同样包括湿地和高地两个生态系统,光谱范围为400~2 500 nm,光谱分辨率为10 nm,空间分辨率为18 m×18 m,共176个波段。
两组实验研究区域高光谱影像的假彩色影像以及地面真实标记数据如图 4~5所示。
为了评价本文算法效果,分别对被动学习算法、主动学习算法和结合未标签信息的主动学习算法对两组高光谱影像数据的分类结果进行对比。每组实验数据中的标签数据依旧被分为三份:标签样本集、未标签样本集和测试样本集。BOT、KSC实验样本数据分配如表 1所示。
为验证算法的有效性这里的总体分类精度为20次实验结果的平均值,近邻数K设置为7,取信息量较高的前50%,分类器选择为支持向量机lib-SVM。对比结果如图 6所示。
从图 6中可以得到,结合未标签信息的主动学习算法优于主动学习算法和被动学习算法。其中BOT数据在同样达到效果最为明显,仅迭代两次就达到了饱和,分类精度最高高出主动学习算法5.146 4%。对于KSC数据效果在前5次迭代时非常明显,分类精度最高可高出主动学习算法2.796 3%。由此可见,在同等迭代次数(标记样本数)下,结合未标签信息的主动学习算法能够获得更高的分类精度。
3.3 参数敏感性分析结合未标签信息的主动学习算法中有一个重要的参数K,K代表未标签样本选择过程中近邻一致性判断的近邻数。在不同K值下的对比结果如图 7所示。
由图 7可知,不同K值下的分类精度曲线差异较小,几条线基本可以重叠。说明本文算法稳定性较好,对参数K取值敏感性较小。
4 结语本文提出的结合未标签信息的主动学习算法,通过可信度和信息量的双重筛选,从未标签数据中选出信息量大且预测标签可信度高的未标签数据,将其预测标签当作真实标签使用,并组建新的训练样本集,从而训练得到更优质的分类模型。实验证明,与被动学习算法和传统的主动学习算法相比,在同等标记代价下,结合未标签信息的主动学习算法能够获得更高的分类精度。另一方面,未标签样本的选择过程过于繁琐,计算量过于庞大,有待继续探索更高效的解决方案。
[1] | 郝泽东, 余淞淞, 关佶红. 基于主动学习的高光谱图像分类方法[J]. 计算机应用, 2013, 33(12): 3441-3443, 3448. ( HAO Z D, YU S S, GUAN J H. Hyperspectral image classification based on active learning[J]. Journal of Computer Applications, 2013, 33(12): 3441-3443, 3448. ) |
[2] | CHEN Y C, LIN Z H, ZHAO X, et al. Deep learning-based classification of hyperspectral data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2094-2107. doi: 10.1109/JSTARS.2014.2329330 |
[3] | RAJAN S, GHOSH J. Exploiting class hierarchies for knowledge transfer in hyperspectral data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(11): 3408-3417. doi: 10.1109/TGRS.2006.878442 |
[4] | KIM W, CRAWFORD M M. Adaptive classification for hyperspectral image data using manifold regularization kernel machines[J]. IEEE Transaction on Geoscience and Remote Sensing, 2012, 48(11): 4110-4121. |
[5] | 陈进. 高光谱图像分类方法研究[D]. 长沙: 国防科学技术大学, 2010: 11-12. ( CHEN J. On classification method of hyperspectral images[D]. Changsha:National University of Defense Technology, 2010:11-12. ) |
[6] | TUIA D, RATLE F, PACIFICI F, et al. Active learning methods for remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47(7): 2218-2232. doi: 10.1109/TGRS.2008.2010404 |
[7] | 刘康. 基于主动学习的高光谱图像分类技术研究[D]. 北京: 中国矿业大学(北京), 2014: 12-13. ( LIU K. Hyperspectral sensing image classification technology based on active learning[D]. Beijing:China University of Mining and Technology (Beijing), 2014:12-13. ) |
[8] | WAN L J, TANG K, LI M Z, et al. Collaborative active and semisupervised learning for hyperspectral remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(5): 2384-2396. doi: 10.1109/TGRS.2014.2359933 |
[9] | ANGLUIN D. Queries and concept learning[J]. Machine Learning, 1988, 2(4): 319-342. |
[10] | TUIA D, RATLE F, PACIFICI F, et al. Active learning methods for remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47(7): 2218-2232. doi: 10.1109/TGRS.2008.2010404 |
[11] | TUIA D, PASOLLI E, EMERY W J. Using active learning to adapt remote sensing image classifiers[J]. Remote Sensing of Environment, 2011, 115(9): 2232-2242. doi: 10.1016/j.rse.2011.04.022 |
[12] | DI W, CRAWFORD M M. View generation for multiview maximum disagreement based active learning for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(5): 1942-1954. doi: 10.1109/TGRS.2011.2168566 |
[13] | DI W, CRAWFORD M M. Multi-view adaptive disagreement based active learning for hyperspectral image classification[C]//Proceedings of the 2010 IEEE International Geoscience and Remote Sensing Symposium. Piscataway, NJ:IEEE, 2010:1374-1377. |
[14] | CRAWFORD M M, TUIA D, YANG H L. Active learning:any value for classification of remotely sensed data[J]. Proceedings of the IEEE, 2013, 101(3): 593-608. doi: 10.1109/JPROC.2012.2231951 |
[15] | LI J, BIOUCAS-DIAS J M, PLAZA A. Semi-supervised hyperspectral image segmentation using multinomial logistic regression with active learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 48(11): 4085-4098. |