合成孔径雷达(Synthetic Aperture Radar, SAR)图像的场景分类与检测是主流研究的热门领域,经常用于民用或军用的地面目标检测和分类任务。目前主要采取基于粗分割像素块[1-2]的特征提取加分类器的方法,特征有强度特征、纹理特征和极化分解特征,通过选择不同特征和不同分类器来完成目标分类[3-4],如均值漂移(Meanshift)+支持向量机(Support Vector Machine, SVM),为考虑邻域相互影响问题又引入了马尔可夫随机场(Markov Random Field, MRF)或者条件随机场(Conditional Random Field, CRF)用来考虑到周围区域类别对中心区域的分类影响,如Meanshift+Potts先验的CRF,最近在传统光学图像的分类上,又出现了全卷积网络(Fully Convolutional Network, FCN)等卷积神经网络直接基于像素点和原图进行分类,以及对FCN等神经网络添加各种后置网络[5-7]如CRF-循环神经网络(CRF-Recurrent Neural Network, CRF-RNN)进一步优化结果的方法。
用基于像素块提取特征的MRF或者CRF来进行SAR图像的分类与分割,首先提取过分割区域获得特征向量,再考虑周围区域的类别转移影响综合计算类别概率,不过它存在同一像素块内不同类别像素的干扰和未完全考虑到全局影响和结构信息的问题,所以有必要直接基于像素点和利用全局信息与结构信息来改善传统方法,本文引入FCN[8]和CRF-RNN[9],分析并选择最合适的FCN结构作为前置网络提供先验概率,FCN直接基于像素点和二维图像,所以不存在像素块内部的误差。CRF-RNN利用FCN得到的初始概率,结合CRF结构考虑全局类别转移影响,并用RNN结构进行迭代,最终提高了正确率,优化了结果。
由于CRF-RNN的距离权重是用高斯核拟合的,不能随实际训练样本来改变和确定,故存在一定误差,本文提出可训练的全图距离权重的卷积网络来改进CRF-RNN进一步优化最终结果。
1 FCN和CRF-RNN 1.1 FCNFCN[8]与CNN的区别主要是CNN的全连接层变成了FCN的反卷积层,输出由单一的分类结果变成了像素级别的分类结果,每个像素都有对应的类别概率,取最大的为其分类结果。FCN直接基于图像的像素点进行操作,经过一系列的卷积层和一层反卷积层,最后通过Softmax层输出类别概率。FCN的主要网络基于现有网络AlexNet[10]、VGGNet[11]和GoogleNet[12],然后进行FCN的微调[13]来实现分类任务,FCN的基本结构如图 1所示。
通过融合不同的pooling层结果以及调整最终反卷积的上采样数可以发展出不同变种,现在主要是FCN-32、FCN-16、FCN-8。FCN的pooling层主要起降维的作用,所以越往后该层的尺度越小,这样会导致细节信息丢失严重,分类不精确,不细致。但是若完全依靠前面层的细节信息,这样分类会很细致,但是由于前层的像素分类结果没有后层的精确,这样也会降低分类准确度。所以在考虑细节信息与分类精度综合影响下,需要实验来进一步确认最合适的FCN。
1.2 CRF-RNNCRF-RNN[9]包括CRF和RNN两部分,RNN的每一次迭代过程就是一次CRF过程,上个CRF的结果是下个CRF的部分输入,其中CRF部分用了dense CRF[14]的计算方法,如图 2所示,通过将CRF的一系列计算步骤化为CNN中的一系列不同功能的层,用神经网络的方法代替传统的CRF计算,各项参数由训练得到。Qin为上次迭代结果,I为图像数据,U为FCN的结果,Qout为本次迭代输出。
该计算的具体细节如下:式(1) 为RNN第一次迭代的初始概率值,由U归一化得到。
${{\text{Q}}_{i}}(l)=\exp ({{U}_{i}}(l))/{{Z}_{i}}$ | (1) |
其中:U是FCN的结果;i为像素点序号;l为类别;Zi为归一化常数。
式(2) 到(3) 为概率转移和权值调整,式(2) 表示全局像素点对某点i的影响,k(m)(fi, fj)表示高斯卷积核,fi和fj为i处和j处的特征向量,一般取二维坐标和颜色向量,m表示卷积核的个数,一般取1或2,式(3) 表示针对不同卷积核有不同权值W(m),最后的结果由其加权得到。W(m)由网络训练得到,后续公式都可化作caffe中已有的相应层的不同组合和前后联结,各公式的参数皆由caffe训练时对应层利用梯度下降算法和误差反传得到。
$\overset{\tilde{\ }}{\mathop{Q}}\,_{i}^{(m)}(l)=\sum\nolimits_{j\ne i}{{{k}^{(m)}}}(fi,fj){{Q}_{j}}(l)$ | (2) |
${{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{Q}}_{i}}(l)=\sum\nolimits_{m}{{{w}^{(m)}}}\overset{\tilde{\ }}{\mathop{Q}}\,_{i}^{(m)}(l)$ | (3) |
两个高斯核的具体计算式如下:
$\exp (-|pi-pj{{|}^{2}}/2\theta _{\alpha }^{2}-|Ii-Ij{{|}^{2}}/2\theta _{\beta }^{2})$ | (4) |
$\exp (-|pi-pj{{|}^{2}}/2\theta _{\gamma }^{2})$ | (5) |
其中:pi和pj表示i和j处的二维位置坐标向量;Ii和Ij表示颜色RGB向量。式(4) 联合考虑距离和颜色差距,距离和颜色差距越大值越小影响越小;式(5) 单独考虑距离差距带来的影响,距离越远值越小影响越小。三个核函数参数θα、θβ、θγ一般人为设定。
式(6) 为类别转移,不同类别间的转移概率不同,故μ(l, l′)对应一个类别转移矩阵,此处μ(l, l′)≠μ(l′, l), 不满足交换律, 类别转移矩阵由CRF-RNN训练得到。
${{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{Q}}_{i}}(l)=\sum\nolimits_{l'\in L}{\mu (l,l')}{{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{Q}}_{i}}(l')$ | (6) |
式(7) 到(8) 为概率整合和归一化,式(7) 表明最终概率由先验U和全局概率转移结果
${{\bar{Q}}_{i}}(l)={{U}_{i}}(l)-{{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{Q}}_{i}}(l)$ | (7) |
${{\text{Q}}_{i}}(l)=\frac{1}{{{Z}_{i}}}\exp ({{\bar{Q}}_{i}}(l))$ | (8) |
CRF-RNN的RNN部分为迭代神经网络,每一次迭代就是一个CRF过程,上一层的输出结果被当作下一层结果的部分输入,也就是RNN会用到信号上下文的分类信息,而不是单一地对信号局部进行分类。
${{H}_{1}}(t)=\left\{ \begin{align} & soft\max (U),t=0 \\ & {{H}_{2}}(t-1),0<t\le T \\ \end{align} \right.$ | (9) |
${{H}_{2}}(t)={{f}_{\theta }}(U,{{H}_{1}}(t),I),0\le t\le T$ | (10) |
$Y(t)=\left\{ \begin{align} & 0,0\le t <T \\ & {{H}_{2}}(t),t=T \\ \end{align} \right.$ | (11) |
除了第一次迭代的类别概率由先验概率归一化得到,后面的迭代的类别概率都是前一次迭代的类别概率计算结果,实验中一般设T=10左右,通过多次迭代来利用全局信息提高分类正确率,式(9) 到式(11) 为RNN循环的计算过程。Y(t)为第T次的输出,H2(t)表示一次CRF过程,U为FCN得到的初始概率,I为图像数据,H1(t)除了第一次是U归一化得到,后面都是上一次H2(t)的输出结果,fθ表示式(2) 到式(8) 的一次迭代过程。
2 全图距离权重网络 2.1 CRF-RNN的前两步改进方法CRF-RNN的CRF过程的第一步概率转移如式(12) 和第二步权值调整如式(13) 为单类别层面的概率转移模型,原始高斯核考虑了x,y的位置向量和颜色RGB向量,实际情况中颜色向量在FCN层中作为原始数据决定了分类的先验概率作为前置,在Qj(l)中已有体现,故实际可不考虑RGB向量的高斯距离,仅考虑位置差异,一般来说距离越远影响越小。CRF-RNN用了传统的高斯核衡量两者距离,但这毕竟是一种先验的近似,是人为设定的一种距离衡量手段,实际情况下可以采取训练的方式来从样本中获取这些距离权值,这样较之传统高斯核方法会更精确,本文结合全图距离权重和网络训练的方法提出了一种改进的卷积网络来解决这一问题,既利用了网络可训练性又维持了全图距离权重的信息。
$\overset{\tilde{\ }}{\mathop{Q}}\,_{i}^{(m)}(l)=\sum\nolimits_{j\ne i}{{{k}^{(m)}}}(fi,fj){{Q}_{j}}(l)$ | (12) |
${{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{Q}}_{i}}(l)=\sum\nolimits_{m}{{{w}^{(m)}}}\overset{\tilde{\ }}{\mathop{Q}}\,_{i}^{(m)}(l)$ | (13) |
其中:fi和fj代表两个点的位置或颜色向量,k(fi, fj)用于衡量向量的距离产生的影响权值,距离越远值越小,k一般为高斯核函数;Qj(l)为每个点的类别概率,l为类别,i和j为在图像中的位置序号。由于存在两个高斯核分别对应位置与颜色向量的距离,两个高斯核应该由不同权重w混合。
式(12) ~(13) 为CRF-RNN中单类别层面的概率转移模型,m值为2, 一般只有位置与颜色两种高斯核,由于颜色已被作为分类依据,故实际实验发现去掉颜色分量对结果无影响。考虑计算速度和后续不方便融合进网络的问题,现在去掉颜色部分既两个公式的m值为1,并用全图距离权重网络代替传统的高斯核距离,根据两点的距离所带来相互影响的程度,若用高斯核函数或其他衡量函数进行人为限定,后面利用权值w(m)只能调节所有权重的整体大小,而细化到各距离之间的权值相对大小和比例关系不会改变,由衡量函数决定,衡量函数也只用到距离向量的大小,对其方向未作考虑。故传统方法有以下问题:第一可能与实际情况不符,人为先验设定函数存在较大误差;第二,人为限定函数无法根据不同样本和不同图像分割目标进行合适调整;第三,衡量函数只用到距离大小未用到方向信息,方向不同也可能导致相互影响程度不同。利用全图距离权重网络后,将距离权重置于全图卷积网络中,该网络的权值由训练样本得到,这样根据不同样本来调整权值更符合实际情况;网络是二维的,故相对网络中心的每个对应距离和不同方向的其他点都有对应的影响权重,而网络中心会遍历整个图像,故所有图像点共享一个全图距离权重矩阵,而该权值全由样本进行网络训练得到。式(12) ~(13) 合一,前两步概率转移和权值调整变为新的算法,此改进的CRF-RNN前两步有新的计算公式如式(14) ~(15) ,而后面三步没有变化:
${{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{Q}}_{i}}(l)=\sum\nolimits_{i!=j}^{s}{{{a}_{i,j}}}{{Q}_{j}}(l)$ | (14) |
${{a}_{i,j}}={{a}_{i1,j1}}\forall D(i,j)=D(i1,j1)$ | (15) |
其中:D(i, j)为i、 j两点的二维坐标差值向量。故根据二维形式坐标的表示点序号的方法,式(14) ~(15) 可化为:
${{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{Q}}_{i,j}}(l)=\sum\nolimits_{(m,n)!=(i,j)}^{s}{{{a}_{(i,j),(m,n)}}}{{Q}_{m,n}}(l)$ | (16) |
$\begin{align} & {{a}_{(i,j),(m,n)}}={{a}_{(i1,j1),(m1,n1)}}\forall \\ & ((m-i=m1-i1)\wedge (n-j=n1-j1)) \\ \end{align}$ | (17) |
其中:s为全图范围的点;a(i, j), (m, n)为图像(m, n)的点到(i, j)点影响权重,系数a满足a(i, j), (m, n)=a(i1, j1), (m1, n1),当m-i=m1-i1且n-j=n1-j1时,表明该网络满足位移不变性,即以全图任意点为中心一种距离只对应一种权重,所有中心点与周围点在相同距离上共享该权重。传统卷积网络的卷积核满足这种性质,经过改进后可满足上述全局权重要求。
2.2 全图距离权重网络和其计算流程该卷积网络结构如图 3所示,假如图像概率数据为n×n大小,将图像上下左右补充0至(3n-2) ×(3n-2) 大小,原始数据在中间,接着用一个(2n-1) ×(2n-1) 的中心左右上下对称的距离权重卷积矩阵与扩展数据卷积形成新的n×n全图概率转移结果,距离权重卷积矩阵参数由训练学习到。
综合上面的算法,故改进的CRF-RNN完整流程如下:
1) 首先结合样本训练FCN使其输出的结果先验概率U尽可能准确,这里采用多种FCN取其效果最好的。
2) 若为RNN的第一次迭代,用FCN得到的U归一化得到初始概率Qi(l),若不为第一次迭代,则用上一次迭代的结果作为这次迭代的初始概率。
3) 将Qi(l)输入2.2节中的全局距离权重网络得到
4) 接着将步骤3) 的结果进行原始CRF-RNN的类别转移,即某一类别的最终全图转移概率由其他类别和本类别乘以相应转移概率μ(l, l′)得到。
5) 将步骤4) 的结果与U进行概率整合得到最终的本次迭代的结果,为了将其转到对应的概率形式,进行归一化操作得到更新的Qi(l),步骤3) ~4) 如图 4所示,I为原图数据。
6) 若达到最大迭代次数T,则直接输出结果,停止迭代;若未达到T,则将此次结果传递到下一次迭代作为其初始概率,并转到步骤2) 继续迭代。
7) 根据步骤6) 的结果和标注样本联合训练整个FCN+CRF-RNN,利用梯度下降算法[15-16]进行误差反传,调节各层参数和最终结果。
本文SAR图像为德国某处的ESAR图像,如图 5所示,分辨率为3 m×2.2 m,大小截取为1000×1000像素,利用ArcGIS软件对地面的真实情况进行标注,感兴趣的区域分为5类,分别为耕地,建筑、林地、道路和其他陆地覆盖物,标注图如图 7的GT图所示。实验采取Linux下的caffe平台,其中FCN基于VGGNet的初始模型。
SAR数据中每种类别的标注颜色统一由图 7给出。为了充分利用原始数据,并配合网络结构,将原始的1000×1000图像分成多个500×500块,块之间跨度为50个像素点,分别从左上到右上、左下到右下、左上到左下、右上到右下共有40张图片,其中4张左上、左下、右上、右下可合并成原始图片,一共进行4次训练,每次训练的测试集分别为4张左上、左下、右上、右下图片的一张,训练集为40张图片中与该次训练测试集图片没有任何交集的21张图片,最后合并4张测试图片结果得到最终测试结果。传统实验先用Meanshift得到粗分割像素块,针对每块提取文献[18]所采用的像素块特征,用SVM直接分类[17]或者用基于Potts先验的CRF[18]引入邻域信息来综合分类,训练与测试样本设置方法与FCN等一致。本文实验先训练FCN模型,再将改进的CRF-RNN作为后置与前置FCN一起再训练出完整模型,接着用样本进行测试,完整实验流程如图 6所示。
首先进行Meanshift+CRF[18]和Meanshift+SVM[17]的实验,然后将FCN分为3个变种FCN-32、FCN-16 、FCN-8,针对每个变种的结果选择最佳FCN后,最后连接后置CRF-RNN以及基于全图距离权重的卷积网络改进的CRF-RNN得到完整网络,所有网络都进行了相同条件的实验, 实验结果采取混淆矩阵和像素整体正确率来评判实验效果,实验结果如图 7所示。
实验结果采取混淆矩阵和像素整体正确率来评判实验效果,混淆矩阵为每个实际类别的像素点被分类成不同类别的占比情况,横向为被分类成的类别,纵向为实际所属类别,所以横向百分比之和为100%,实验结果数据如表 1所示。
3.3 实验结果分析对于该图像,背景的类别像素是最多的,故背景类别正确率最为重要,其他类别的像素数量差不多,总体来说:分类效果中建筑和背景的正确率较高,都有80%以上的正确率;林地和道路的正确率也有50%以上;耕地的分类效果很差,不足30%,耕地与背景的相似度很大,导致耕地有一部分被分为了背景。
第一,FCN结果对比传统CRF和SVM实验结果,除了FCN-32由于细节信息丢失过于严重导致正确率过低,其他的结果都较传统CRF和SVM有一定改善,其中FCN-8的结果较好,正确率高,各类别的正确率比传统方法都有一定提升,整体正确率有75.72%,不过耕地的识别度较低,除此之外,传统方法的边缘区分强于FCN,传统方法的边缘较平滑。
第二,FCN8后置CRF-RNN的结果对比FCN-8得到进一步改善,耕地和背景的类别正确率得到明显改善,林地也有少许改善,其他两类建筑和道路类别正确率稍有下降,其中背景像素占全图的比例最多,故全图平均正确率有明显改善,提高了2.15个百分点,有77.87%的整体正确率,也比传统方法平均提高了6.5个百分点。
第三,改进的CRF-RNN结果对比未改进的CRF-RNN结果,我们发现耕地和道路的识别度有明显改善,特别是耕地正确率提高了14个百分点,其他三类有高有底,建筑分类正确率有少许1.6个百分点的提升,林地和背景稍有下降,但数值变化不大,总体正确率也因此提高了1.04个百分点,达到了78.91%。
将最终改进的FCN-8+CRF-RNN的结果图与FCN8+CRF-RNN图和GT图进行对比,观察由图 8标注的黑色圆圈的局部区域,发现标注区域的分类效果得到明显改善,说明了改进的CRF-RNN的局部区域分类正确率比未改进的原网络结果得到了一定的提高,特别是其中比较难分的类别。
总体来说,对于改进的CRF-RNN,有以下三点提升的地方:1) 总体正确率由未改进的CRF-RNN的77.87%提升到了78.91%。2) 部分难分的类别正确率得到显著提升,比如耕地分类正确率提高了14个百分点。3) 部分局部区域的一些类别分类效果得到明显改善,更接近原图标注的效果。
本文引入了FCN来解决SAR图像分类问题,研究了它的几个变种,用实验来确定比较好的FCN,针对FCN未考虑其他像素类别,对图像全局像素概率转移的缺失问题,又引入了CRF-RNN作为后置改善了综合考虑其他像素信息的问题,最后用自己改进的全局距离权重卷积网络代替CRF-RNN的传统CRF高斯核距离权重方式,有效改进了实验结果,将分类正确率又提高了1.04个百分点,图像细节信息得到改善;但此方法的边缘部分比较模糊,边缘区分不如传统方法。此方法并不只适用于SAR图像,以后将用于传统的光学图片。
[1] | GUPTA S, GIRSHICK R, ARBELÁEZ P, et al. Learning rich features from RGB-D images for object detection and segmentation[C]//ECCV 2014:Proceedings of the 13th European Conference on Computer Vision, LNCS 8695. Cham, Switzerland:Springer International Publishing, 2014:345-360. |
[2] | HARIHARAN B, ARBELÁEZ P, GIRSHICK R, et al. Simultaneous detection and segmentation[C]//ECCV 2014:Proceedings of the 13th European Conference on Computer Vision, LNCS 8695. Switzerland:Springer International Publishing, 2014:297-312. |
[3] | GUPTA S. Semantic segmentation using regions and parts[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2012:3378-3385. |
[4] | MOSTAJABI M, YADOLLAHPOUT P, SHAKHNAROVICH G. Feedforward semantic segmentation with zoom-out features[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2015:3376-3385. |
[5] | BELL S, UPCHURCH P, SNAVELY N, et al. Material recognition in the wild with the materials in context database[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2015:3479-3487. |
[6] | CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J/OL]. ArXiv.[2016-06-01]. http://arxiv.org/pdf/1412.7062v3.pdf. |
[7] | PAPANDREOU G, CHEN L C, MURPHY K P, et al. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC:IEEE Computer Society, 2015:1742-1750. |
[8] | LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2015:1337-1342. |
[9] | ZHENG S, JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC:IEEE Computer Society, 2015:1529-1537. |
[10] | KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Piscataway, NJ:IEEE, 2012:1097-1105. |
[11] | SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Eprint Arxiv, 2014, 9 (5) : 1409-1556. |
[12] | SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC:IEEE Computer Society, 2015:1-9. |
[13] | DONAHUE J, JIA Y, VINYALS O, et al. DeCAF:a deep convolutional activation feature for generic visual recognition[EB/OL].[2016-03-06]. http://arxiv.org/pdf/1310.1531v1.pdf. |
[14] | KRAHENBVHL P, KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]//Advances in Neural Information Processing Systems 24. Piscataway, NJ:IEEE, 2011:109-117. |
[15] | ROSS S, MUNOZ D, HEBERT M, et al. Learning message-passing inference machines for structured prediction[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE,2011:2737-2744. |
[16] | STOYANOV V, ROPSON A, EISNER J. Empirical risk minimization of graphical model parameters given approximate inference, decoding, and model structure[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics.[S.l.]:JMLR, 2011:725-733. |
[17] | MAGHSOU Y. COLLINS M J, LECKIE D G. Radarsat-2 polarimetric SAR data for boreal forest classification using SVM and a wrapper feature selector[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2013, 6 (3) : 1531-1538. doi: 10.1109/JSTARS.2013.2259219 |
[18] | SU X, HE C. A supervised classification method based on conditional random fields with multiscale region connection calculus model for SAR image[J]. IEEE Geoscience and Remote Sensing Letters, 2011, 8 (3) : 497-501. doi: 10.1109/LGRS.2010.2089427 |