2. 北京化工大学 理学院, 北京 100029
2. Faculty of Science, Beijing University of Chemical Technology, Beijing 100029, China
图像分类识别一直是计算机领域中比较受关注的问题,用途广泛。图像分类的基本流程是依次对图像进行预处理、特征提取、降维等操作,然后进行分类。目前较常用的基于特征提取的方法有很多,如基于Gabor滤波的特征提取方法[1],对不同光照、不同几何变形都有着较强稳定性的SIFT方法[2-3],具有旋转不变性和灰度不变性的局部二值模式LBP算子[4]及其改进算法CLBP[5]、M S-CLBP算法[6]等。其中基于语义特征提取的物体识别技术——视觉词袋学习(bag of visual words,BoVW)[7]得到广泛应用,该方法具有较好的识别性能,并且在遮挡、视角变化等方面有着较好的鲁棒性。为了加入局部特征间的空间位置关系,学者们又引入了空间金字塔匹配(SPM)[8]框架。为了降低直接利用离散特征分类造成的较高计算复杂度,主流的图像分类方法增加了对这些大量离散局部特征进一步编码聚类生成中间语义特征的过程。目前常用的聚类方法有kmeans[9]、高斯混合模型(GMM)[10]等,近几年比较流行的深度卷积神经网络(deep CNN)[11]在目标识别方面显示出极大优势。
但是以上传统的图像分类算法多采用单一数据源(如可见光),提取的特征信息量不足。为了弥补单一传感器的局限,本文提出将红外图像和可见光图像在特征级融合的分类识别方法,将红外和可见光获得的同一场景下的图像通过一种无字典模型(CLM)[12]进行特征变换,无需构建字典,直接通过特征描述符来表征图像特征,利用混合核支撑向量机(SV M-CK)[13-14]将二者进行特征级融合以获得互补而完备的信息,最后利用支持向量机(SVM)分类器进行图像分类识别。该方法结合了红外图像和可见光图像各自的优势,可以更加突出目标特性并丰富完善图像特征信息。
1 融合分类的整体框架可见光图像具有成像细腻、色泽饱满、细节清晰、边缘明显、分辨率高等优点,但是受天气和光线等外界条件影响明显,光线暗的条件下捕捉到的细节信息明显下降。而红外图像主要依据红外热像仪捕获物体发出的热辐射,不受光线和一些极端天气的影响,抗干扰能力强、成像比较稳定,黑暗环境和烟雾遮挡情况下,红外图像仍然能捕捉到大量信息;但红外图像分辨率低,对比度差、细节信息表现得不明显。为了避免单一传感器成像方式受到制约而导致的信息缺失,本文利用红外图像和可见光图像融合后的特征信息来进行图像分类处理。首先分别对红外图像和可见光图像提取D-SIFT特征后进行CLM变换,再利用SV M-CK方式将红外和可见光融合并利用SVM分类器进行分类识别。具体处理流程如图 1所示。
虽然经典的尺度不变特征变换(SIFT)算法对方向具有很好的鲁棒性,但是对于缺少纹理信息且照度较低的红外图像来说很难提取出有效的SIFT特征,而且处理数据量庞大的图像库时关键点的匹配会降低效率,所以本文采用密集SIFT(D-SIFT)方法对红外图像和可见光图像进行特征描述。具体做法是基于固定网格和步长的SIFT特征,在多尺度下提取密集的SIFT特征并进行池化,省去了SIFT构造差分高斯空间和求解极值点的过程。D-SIFT的窗口提取过程如图 2所示。
CLM方法直接用特征描述符来描述图像特征的统计分布,即将一幅图像用单一的高斯模型来表示,无需通过聚类的方式去构造字典,避免了构建字典过程的计算误差。基于红外和可见光图像进行CLM特征提取的基本算法的具体步骤如下。
1) 提取D-SIFT特征,通过最大似然法将这些特征用如式(1)所示的高斯模型来表示
$ \mathit{\boldsymbol{N}}({\mathit{\boldsymbol{x}}_i}|\mathit{\boldsymbol{\mu }}, \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}) = \frac{{{\rm{exp}} \left( {- \frac{1}{2}{{({\mathit{\boldsymbol{x}}_i} - \mathit{\boldsymbol{\mu }})}^{\rm{T}}}{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^{ - 1}}({\mathit{\boldsymbol{x}}_i} - \mathit{\boldsymbol{\mu }})} \right)}}{{\sqrt {{{(2\pi )}^k}{\rm{det}}\left( \mathit{\boldsymbol{ \boldsymbol{\varSigma} }} \right)} }} $ | (1) |
式(1)中μ是高斯模型的均值向量,Σ是128×128的协方差矩阵,det(·)代表矩阵的行列式,xi代表特征向量。
2) 用2-step metric[10]来度量两个高斯模型间的距离。首先将上述高斯流形并入到一个对称正定矩阵中,然后将正定对称矩阵的Lie群通过对数欧几里得矩阵映射到相应的Lie代数中,变成线性空间,具体来说,定义两个仿射变换函数ψ和γ,将高斯模型用一个关于均值和协方差的矩阵表示
$ \psi :\mathit{\boldsymbol{N}}\left( {\mathit{\boldsymbol{\mu }}, \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}} \right)\;\;\;\;\;\mathit{\boldsymbol{A}} = \left[{\begin{array}{*{20}{c}} \mathit{\boldsymbol{P}}&\mathit{\boldsymbol{\mu }}\\ {{{\bf{0}}^{\rm{T}}}}&1 \end{array}} \right] $ | (2) |
$ \gamma :\mathit{\boldsymbol{A}}\;\;\;\;\mathit{\boldsymbol{S}} = \mathit{\boldsymbol{A}}{\mathit{\boldsymbol{A}}^{\rm{T}}} $ | (3) |
其中矩阵P由协方差矩阵Σ经过Cholesky分解得到。通过式(2)、(3)变换后,将矩阵高斯模型映射到一个如式(4)所示的对称正定矩阵S中
$ \mathit{\boldsymbol{N}}\left( {\mathit{\boldsymbol{\mu }}, \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}} \right) \sim \mathit{\boldsymbol{S}} = \left[{\begin{array}{*{20}{c}} {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }} + \mathit{\boldsymbol{\mu }}{\mathit{\boldsymbol{\mu }}^{\rm{T}}}}&\mathit{\boldsymbol{\mu }}\\ {{\mathit{\boldsymbol{\mu }}^{\rm{T}}}}&1 \end{array}} \right] $ | (4) |
3) 引入参数β和ρ来进一步优化式(4)所示模型,其中β>0且0<ρ≤1,则公式(2)可变为
$ \psi \left( \beta \right):\mathit{\boldsymbol{N}}\left( {\mathit{\boldsymbol{\mu }}, \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}} \right)\;\;\;\mathit{\boldsymbol{A}} = \left[{\begin{array}{*{20}{c}} \mathit{\boldsymbol{P}}&{\beta \mathit{\boldsymbol{\mu }}}\\ {{{\bf{0}}^{\rm{T}}}}&1 \end{array}} \right] $ | (5) |
协方差Σ的幂归一化被规定为
$ {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^\rho } = {\rm{diag}}(\lambda _i^\rho )\mathit{\boldsymbol{U}}{\mathit{\boldsymbol{U}}^{\rm{T}}} $ | (6) |
所以对应的矩阵式(4)变为式(7)
$ \mathit{\boldsymbol{N}}\left( {\mathit{\boldsymbol{\mu }}, \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}} \right) \sim \mathit{\boldsymbol{S}}\left( {\beta, \rho } \right) = \left[{\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}^\rho } + {\beta ^2}\mathit{\boldsymbol{\mu }}{\mathit{\boldsymbol{\mu }}^{\rm{T}}}}&{\beta \mathit{\boldsymbol{\mu }}}\\ {\beta {\mathit{\boldsymbol{\mu }}^{\rm{T}}}}&1 \end{array}} \right] $ | (7) |
由此得到一个维度为129×129的矩阵S。
4) 利用矩阵对数[15]将矩阵S(β,ρ)映射到一个线性空间中
$ \mathit{\boldsymbol{G}}\left( {\beta, \rho } \right) = {\rm{lg}}\left( {\mathit{\boldsymbol{S}}\left( {\beta, \rho } \right)} \right) $ | (8) |
若两个高斯模型N(μi, Σi)和N(μj, Σj)分别对应两个相应的正定矩阵Gi(β, ρ)和Gj(β, ρ),那么这两个高斯模型的距离d定义如式(9)
$ {d_{{N_i}, {N_j}}} = {\left\| {{\mathit{\boldsymbol{G}}_i}\left( {\beta, \rho } \right) - {\mathit{\boldsymbol{G}}_j}\left( {\beta, \rho } \right)} \right\|_F} $ | (9) |
矩阵G是一个正定对称矩阵,因此为了减少存储空间,G可以由它的上三角矩阵表示,并将其展开为一个列向量形式。至此一副图像可以由一个列向量表示。
为防止图像空间信息的丢失,通过空间金字塔匹配(spatial pyramid matching,SPM)将图像由粗到细划分为3层(1×1, 2×2, 4×4)(图 3)。对每一层的每个区域分别进行CLM变换,然后将所有区域的特征按照一定的权重连接起来代表整幅图像。
SVM在解决非线性和高维空间的分类模型中表现出色,因此本文采用混合核SV M-CK方式,选取合适的核函数将红外特征和可见光特征进行融合,SV M-CK的表达式为
$ CK({x_i}, x) = \alpha {K_1}({x_i}, x) + \left( {1 - \alpha } \right){K_2}({x_i}, x) $ | (10) |
其中,CK(xi, x)是复合平面核函数,K1(xi, x)是可见光的核函数,K2(xi, x)是红外图像的核函数,α是权重参数。对于红外图像和可见光图像分别尝试不同的核函数,并通过交叉验证找出每一类数据源所适合的核函数及其最优核函数参数σ;利用混合核来实现图像特征级融合,从而充分体现红外图像和可见光图像特征的互补性;在此基础上利用SVM的one-vs-all的规则来达到多类图像分类的最好效果,即对每类样本都分别训练一个该类样本与其他所有样本类别间的SVM分类器。
4 实验验证及结果分析为了验证本文算法的优越性,首先对一个19类的光学卫星场景数据集进行分类,然后分别在VAIS和RG B-NIR两个不同的可见光与红外组合数据库上用本文提出的基于无字典模型的融合方法进行分类。
4.1 19类的卫星场景数据库该数据库包含19类的高分辨率卫星场景,并且样本类间差距很小。每个类别包含50张左右600×600像素的图片,这些图片均提取自谷歌地球上的卫星图像。从每个类别中随机选择30张图片作为训练数据,其余图片作为测试数据。本文方法和其他方法分类精度对比如表 1所示。
通过以上实验结果的横向对比看出,当数据集样本类别较多且各类类间差距较小时,本文方法的分类精度仍高于BoVW等方法。
4.2 VAIS数据库VAIS数据库[11]中的船可以精确分为15类,粗略分成6类,共2865张图片,其中1623张为可见光,1242张为红外光。本文选取1088个成对的可见光和红外图像,每类的详细信息如表 2所示。
将1088个样本中的539个作为训练样本,549个作为测试样本,选取不同的核函数(RBF核,poly核,linear核)并调节权重参数,根据交叉测试结果选取最优RBF核参数,得到红外和可见光最佳的RBF核参数均为0.005;权重α=0.2时核融合后的分类效果最好(88.7%),所以取α=0.2。图 4为α=0.2时每一类的分类情况。
分别用Gnostic Field、CNN、Gnostic Field+CNN及BoVW分类方法对表 2中数据进行分类,得到几种分类方法在VAIS数据库的分类精度对比如表 3所示。可以看出3种分类方式中本文方法分类精度均高于其他几种方法,如比表现最好的BoVW仍高出4.7%(融合后)。由于红外图像的分辨率比可见光低,使得仅用可见光分类效果好于仅用红外图像,但是将可见光和红外图像融合后获得了比仅用可见光更高的识别率。
RGB-NIR数据库[3]包含477幅场景图像,由9类图像组成,每一类的详细信息如表 4所示。
为了与文献[3]中方法进行对比,仍从这477张图像中随机选取99张(每类11张)进行测试,其余作为训练样本。通过交叉验证最终选取红外和可见光的最优RBF核参数均为0.01,权重参数α=0.6时,分类精度最高(86.9%)。
图 5列出了α=0.6时每一类的具体分类情况。
分别用本文方法和文献[4]中方法对RG B-NIR数据进行分类,得出对应分类精度对比情况如表 5所示。其中NI R-SIFT仅用红外数据、RG B-SIFT仅用可见光数据分类,其余方法均利用红外与可见光结合的方式进行分类。同时利用rgb i-GIST、rgb i-HMAX、pca 4-GIST、pca 4-HMAX及BoVW对图像进行特征处理时,均用相同的SVM分类器进行结果判决,以便更直观地显示本文方法对结果的影响。从表 5的实验结果中可以看到,本文提出的方法比表现较好的pca 4-SIFT和BoVW方法的分类精度还要高12%以上,再次证明了利用红外和可见光通过核融合所带来的性能提升。
本文提出的基于红外图像和可见光图像融合的图像分类方法结合了可见光图像细节清晰和红外图像不受极端天气影响可以昼夜工作的优点,使二者特征互补,从而获得更完备更全面的特征。同时利用CLM方法对图像进行特征分析,直接用特征描述符表征图像而不用构造字典,节省了存储空间也避免了训练字典带来的麻烦。并且用SV M-CK的方式实现了红外图像特征和可见光图像特征的融合,最后通过交叉验证的方式选取一组最优的特征系数,从而优化了SVM分类器的分类效果。将本文方法在舰船检测和场景分类中进行验证的结果表明,融合后的精度均比仅用可见光或红外图像的分类精度要高,而且与其他已有方法相比分类效果也得到了明显的改善。
[1] |
Hegde G P, Seetha M. Subspace based expression recognition using combinational Gabor based feature fusion[J]. International Journal of Image Graphics & Signal Processing, 2017, 9(1): 50-60. |
[2] |
Lowe D G. Distinctive image feature from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94 |
[3] |
Brown M, Süsstrunk S. Multi-spectral SIFT for scene category recognition[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, USA, 2011, 42(7): 177-184.
|
[4] |
Li W, Chen C, Su H J, et al. Local binary patterns and extreme learning machine for hyperspectral imagery classification[J]. IEEE Transactions on Geoscience & Remote Sensing, 2015, 53(7): 1-13. |
[5] |
Guo Z H, Zhang L, Zhang D. A completed modeling of local binary pattern operator for texture classification[J]. IEEE Transactions on Image Processing, 2010, 19(6): 1657-1663. DOI:10.1109/TIP.2010.2044957 |
[6] |
Chen C, Zhang B C, Su H J, et al. Land-use scene classification using multi-scale completed local binary patterns[J]. Signal Image & Video Processing, 2016, 10(4): 745-752. |
[7] |
Zhao L J, Tang P, Huo L Z. Land-use scene classification using a concentric circle-structured multiscale Bag-of-Visual-Words model[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2014, 7(12): 4620-4631. |
[8] |
Lu F X, Huang J. Beyond bag of latent topics:spatial pyramid matching for scene category recognition[J]. Frontiers of Information Technology & Electronic Engineering, 2015, 16(10): 817-828. |
[9] |
Celebi M E, Kingravi H A, Vela P A. A comparative study of efficient initialization methods for the k-means clustering algorithm[J]. Expert Systems with Applications, 2013, 40(1): 200-210. DOI:10.1016/j.eswa.2012.07.021 |
[10] |
Li P H, Wang Q L, Zhang L. A novel earth mover's distance methodology for image matching with gaussian mixture models[C]//IEEE International Conference on Computer Vision. Sydney, Australia, 2013: 1689-1696.
|
[11] |
Zhang M M, Choi J, Daniilidis K, et al. VAIS: a dataset for recognizing maritime imagery in the visible and infrared spectrums[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 10-16.
|
[12] |
Wang Q L, Li P H, Zhang L, et al. Towards effective codebookless model for image classification[J]. Pattern Recognition, 2016, 59(SⅠ): 63-71. |
[13] |
Camps-Valls G, Gomez-Chova L, Munoz-Mari J, et al. Composite kernels for hyperspectral image classification[J]. IEEE Geoscience & Remote Sensing Letters, 2006, 3(1): 93-97. |
[14] |
Li W, Du Q. Support vector machine with adaptive composite kernel for hyperspectral image classification[C]//Conference on Satellite Data Compression, Communications, and Processing XI. Baltimore, USA, 2015.
|
[15] |
Arsigny V, Fillard P, Pennec X, et al. Fast and simple calculus on tensors in the Log-Euclidean framework[C]//The 8th International Conference Medical Image Computing and Computer-Assisted Intervention. Palm Springs, USA, 2005: 115-122.
|