2. 嘉兴学院 数理与信息工程学院, 浙江 嘉兴 314000;
3. 同济大学 超大规模集成电路研究所, 上海 200092
2. College of Mathematics Physics and Information Engineering, Jiaxing University, Jiaxing Zhejiang 314000, China;
3. Institute of Very Large Scale Integration, Tongji University, Shanghai 200092, China
当前,世界各国在无人机的民用方面应用逐步开放,无人机在民用方面的应用越来越多,已经广泛应用于公共安全、应急搜救、农林、环保、交通、通信、气象、影视航拍等多个应用领域[1-2]。随着新能源技术的发展,无人机超视距的飞行能力也越来越强,无人机自主飞行的需求也在不断地增加,如无人机侦察[3]、无人机物流等。自主飞行要求无人机具备对飞行周边环境的感知能力,因此研究如何使无人机具备飞行环境感知能力也越来越受到国内外研究者的广泛关注,例如采用超声波传感器和立体视觉系统感知飞行场景帮助飞行器避免碰撞等[1]。目前大部分研究主要围绕无人机自动避障等飞行途中的安全问题,随着无人机应用的扩展,要使无人机真正具备野外自主飞行能力,安全降落也是一个非常重要的环节。因而研究降落场地识别问题,使无人机具备识别野外降落场景是否适合降落的能力也是自主安全飞行的重要环节。野外场景主要包括水域、沼泽、公路、草地、荒漠、树林、灌木、冰雪地、建筑顶、泥地等。根据无人机降落安全问题,本文将这些场景归结为水域、路、草地、树林与灌木、雪地和泥地等六类场景。使无人机在降落的时候能够自动识别当前降落场景,为安全自动降落提供控制决策基础。
降落地场景识别问题属于图像场景语义分类中的一种,当前场景语义分类是图像语义分类中的一个重要方向,当前已经有很多关于场景分类问题的研究。早期的场景分类研究,主要集中在以低层特征并采用手工算法提取包括颜色、纹理、形状等图像特征,典型提取算法如尺度不变特征变换(Scale Invariant Feature Transform, SIFT)[4]、梯度方向直方图(Histogram of Oriented Gradient, HOG)[5]、局部二值模式(Local Binary Pattern, LBP)[6]、通用搜索树(Generalized Search Tree, GiST)[7]等,然后训练分类器进行场景分类。由于缺乏语义层次的描述能力,采用低层特征描述的场景分类方法在应用中表现出泛化能力差的特点,从文献[4-7]的测试结果中可以看到虽然分类性能远未达到应用的要求,但是HOG等算法的低层特征提取能力是非常不错的。文献[8]提出在低层特征的基础上建立中层特征,通过借鉴词包(Bag-Of-Words, BOW)模型的思想,提出构建视觉词包(Bag Of Visual Word, BOVW)模型[9],该模型由特征提取、视觉词典、特征映射和主题模型四部分构成。BOVW相对于只采用低层特征的模型具有较强的分辨性,而且鲁棒性较好,但是BOVW模型没有考虑到局部特征空间关系,不具备全局特性,制约其场景特征的描述能力,识别效果上距离应用还有较大距离。文献[10]借鉴金字塔匹配核的思想,提出空间金字塔匹配(Spatial Pyramid Matching, SPM)模型, 大大提高了词包模型的场景分类识别能力,能够适用于简单场景分类应用,但是对于复杂场景分类还不具备应用可能。文献[11-12]对视觉词包模型进行了详细描述,典型BOVW处理流程如图 1所示。
近年来,卷积神经网络深度学习模型在计算机视觉领域得到了广泛的应用。深度学习采用构建层次模型,通过监督方式自动学习图像特征。目前深度学习方法也被应用于图像分类研究,与传统手工特征方法相比取得非常大的突破。其中Lecun网络(Lecun Networking, LeNet)、Alex网络(Alex Networking, AlexNet)、Google网络(Google Networking, GoogLeNet)、视觉几何组网络(Visual Geometry Group Networking, VGGNet)、残差网络(Residential Networking, ResNet)是目前最知名的图像分类深度学习网络模型。文献[13]针对场景分类创建深度学习模型在测试库上Sports-8、Scene-15、Indoor-67上分别获得93.8%、88.4%、68.9%的识别准确率;文献[14]在Scene-15、Indoor-67上分别获得90.19%、68.24%的识别准确率;文献[15]在测试库Scene-15获得90.4%的识别准确率。文献[13-15]分别采用不同的深度网络模型提取自学习特征并在场景分类上与手工特征方法相比在识别准确率有显著提高。深度自学习特征通常具有较好的高层特征,然而低层局部特征提取能力相对较弱[14]。
针对深度学习模型获取低层局部特征能力不足的问题,本文提出一种结合深度自学习特征和HOG金字塔低层局部特征相结合的场景识别方法。首先提取场景图像的HOG金字塔特征;然后通过调优训练的卷积神经网络模型提取深度自学习特征;最后利用支持向量机(Support Vector Machine, SVM)分类器对联合特征进行分类。通过在公开以及自建图像场景数据库上的实验结果表明, 所提出方法的场景识别准确率与手工特征如SIFT、HOG等和只使用深度自学习特征的方法相比较,识别效果有显著提升。
1 场景识别系统架构场景识别系统的典型框架是特征表述加分类器,该识别系统采用HOG特征与深度学习特征的联合特征。其中深度模型通过设计深层网络模拟人脑进行信息判别而自动获取特征,在图像分类领域的研究中取得优异的效果[5]。在该思想的启发下,本文提出结合深度学习模型和HOG特征的场景识别方法,改进场景类别识别效果,系统框架如图 2所示。
系统通过无人机机载摄像头采集图像序列,分别通过HOG算法和深度学习模型提取特征并进行融合,然后利用分类器判别最终结果并输出。系统选取SVM分类器作为分类算法,其具有较强泛化能力的通用学习算法,在图像识别领域广泛应用并取得良好的效果,为测试特征融合效果的有效性提供支持。
2 HOG金字塔特征 2.1 金字塔特征描述通常情况下,图像在固定尺度下不容易提取到的特征,但通过变化尺度后容易被提取到,因此利用尺度变化方法可以更好地描述图像的特征,可以更多地提取到图像的特征信息。金字塔模型就是一种非常有效的多尺度特征提取方法,通过对图像采用不同分块方法来实现图像的多尺度表达,如图 3所示。随着分块的增加,所提取局部特征越细致,但是计算代价越高。文中采用两层金字塔结构,每层分别提取4×4和8×8的尺度特征信息。
HOG的核心思想是所检测的局部物体外形能够被光强梯度或边缘方向的分布所描述,是对图像的局部区域内梯度方向信息的统计。通过将整幅图像分割成小的连接细胞单元,每个细胞单元生成一个方向梯度直方图或者区域中像素的边缘方向,这些直方图的组合可表示出检测目标描述子。为提高准确率,局部直方图可以计算图像中一个较大区域均值,然后用这个值归一化这个区域中的所有单元。这个归一化过程完成了更好的照射和阴影不变性。HOG特征提取根据不同目的可以使用矩形窗口与圆形窗口,其中矩形窗口是一些方形的格子,可以提取到全部像素的信息,而圆形窗口存在部分像素不能提取或重复提取问题,因此本文采用矩形窗口,特征的具体提取过程如下:
1) 图像进行灰度化处理,并用标准化到gamma空间。
2) 分别用水平边缘算子[-1, 0, 1]和垂直边缘算子[-1, 0, 1]T, 求图像中像素点(x, y)的梯度。
3) 将图像分割为小细胞单元格并构建每个单元格梯度方向直方图。
4) 把单元格组合成大的区块,使用式(1) 进行块内归一化梯度直方图:
$H(i) = H(i)/\sqrt {\sum\limits_{n = 1}^n {H{{(i)}^2}} + \varepsilon } $ | (1) |
其中:i= 1,2,…,n,n为直方图的区间数; ε为小的正常数。用式(2) 对得到的直方图进行截断;
$H(i) = \left\{ \begin{array}{l} H(i), \;\;H(i) \le th\\ th, \;\;\;\;\;\;H(i) > th \end{array} \right.$ | (2) |
5) 将所有区块的HOG描述符从上到下、从左到右组合在一起,形成特征向量。
6) 将所有区块的HOG描述符从上到下、从左到右组合在一起,形成特征向量。
HOG是一种比较特殊的特征,不同的配置模型得到不同的特征向量,配置参数对分类结果有非常大的影响,文中图像大小归一化为(128,128) 像素,并将图像分为16和64块两个层次提取特征,每块得到16维的向量,最终得到的特征维数为1280维。
3 深度卷积神经网络 3.1 卷积神经网络目前,卷积神经网络在图像分类领域的应用取得非常好的效果,其将权值共享、空间下采样和局部连接结合起来,一方面降低了网络的复杂性,另一方面保持图像边缘和空间信息的检测能力。典型卷积神经网络通常由输入层、卷积层、池化层、全连接层和输出层组成,卷积和池化层一般交替出现多次。每个卷积层都有多个卷积核对上一层的输出进行卷积运算得到对应特征图。模型中低层的卷积从输入的图像数据中学习到水平或垂直的线、颜色等低层特征信息,高层次的卷积核学习获取物体形状、空间结构等高级特征。
3.2 深度卷积网络模型构建当前深度学习进步很快,应用范围逐步扩大,其中针对图像分类有Alexnet、GoogLeNet、VGGNet、ResNet等。然而这些深度模型有些对场景分类效果不好,有些则是网络规模太大不能适用于UAV飞行平台的应用。构建深度卷积网络模型,提高分类效果通常做法是增加模型的深度或者宽度(层核或神经元数),但是容易产生如下缺陷:一是参数太多,若训练数据集有限,容易过拟合;二是网络模型越大计算复杂度越高,难以应用;三是网络越深,梯度容易消失,难以训练优化模型。本文针对无人机降落场景分类的复杂程度参考文献[16]构建如图 4所示的网络结构模型。
卷积网络的训练过程有两个部分,分别是前向传播和反向传播。前向传播包括数据输入层、卷积层、下采样层等隐含层逐层变换和映射达到输出层;反向传播是利用带有标签的数据监督优化训练各层网络参数。训练过程在参考文献[17]研究的基础上,本文细化如下:
1) 权值初始化为一个较小的随机数。
2) 从训练图库中取出样例X输入到网络并给出它的目标输出向量。
3) 前向传播计算到输出,对于不同的层采用不同的计算,包括:卷积层、下采样层和全连接层。
4) 全部训练集上的误差损失计算。
5) 反向传播计算各层误差损失,包括全连接层、卷积层和下采样层。
6) 根据各层误差损失计算损失函数对基的偏导数和对权向量的偏导数,即梯度计算。
7) 根据计算得到的梯度分别更新上述各层的权值和阈值。
8) 重复2)~7),直到误差函数结果小于设定的阈值。
考虑到测试数据集数量有限,为增强网络的识别能力,网络训练分为两个阶段,首先使用ImageNet数据集对网络进行预训练;再使用测试数据集进行调优训练得到结果模型。深度模型训练使用修正线性单元(Rectified Linear unit, ReLu)为激励函数, 丢弃率(DROPOUT)值为0.4。训练输入图片采用224×224随机采样与水平翻转,并减去训练集均值。
3.4 深度学习特征提取将测试数据输入训练完成后的网络模型提取数据的特征,序列化全连接层(图 4中h11层)数据,输出2048维特征向量。归一化该特征与HOG特征连接得到最终的特征向量。
4 实验结果与分析 4.1 实验环境实验中使用NVIDIA-K20 GPU在ImageNet数据上集训练初始网络模型;其他实验在大疆妙算计算单元Jetson TK1嵌入式系统上进行,主机内存为2.0 GB,Tegra K1 SOC集成处理器包括NVIDIA Kepler GPU、192个CUDA核心、CPU为4核的ARM Cortex-A15。操作系统是ubuntu14,网络模型采用Caffe框架构建, 并使用OpenCV与libsvm库进行最后分类识别处理。
4.2 实验测试数据测试数据集的来源由三部分构成,约55%通过使用自有无人机采集, 30%左右分通过从互联网上搜集一些无人机飞行的航拍场景图片,剩下15%来源于Scene-15和Sports-8测试图像数据库。测试的数据包括6类场景,分别是:树与灌木、水域、道路、泥地(包括沙漠)、草地、雪地(包括冰面)。实验中将所有图像尺寸缩放到256×256像素。
由于当前降落场景识别没有公开数据库,为检验识别方法的有效性,使用三个公开测试库来检验所提方法的分类识别准确率,分别如下:
1) Scene-15:数据包括4485张图片,涵盖15个室内和室外的场景,每个类型包含200~400张灰度图片。根据标准测试方法,每类选取100张作为训练,剩下的作为测试数据。
2) Sports-8:数据库包括1579张图片,涵盖8个运动场景,每个运动场景有137~250张图片。根据标准测试方法,每类抽取70张作为训练图片,并选取60张作为测试图片。
3) Indoor-67:数据库包括15620张图片,包含67个室内场景,使用参考文献[14]的分类方法,每类场景包含约80张训练图片和20张测试图片。
4.3 结果分析文中采用准确率来评价场景分类方法的性能,准确率是各类场景召回率的均值,式(3) 和式(4) 分别是召回率与准确率的定义。
$召回率 = \frac{正确分类图像数}{该类图像总数}$ | (3) |
$准确率 = \sum\limits_{i = 1}^K {{c_i}} /K$ | (4) |
其中K为场景数。
4.3.1 实验一在三个公开数据库上,分别使用本文方法与手工场景图像特征提取效果较好的几种方法,如HOG2×2、SIFT、LBP、深层歧视和共享特征学习(Deep Discriminative and Shareable Feature Learning, DDSFL)[18]等,以及当前图像分类效果较好的CaffeNet深度网络模型进行对比(CaffeNet来自Caffe框架提供的模型数据进行调优训练),结果如表 1所示, 其中:“直接”表示不使用调优训练,直接使用测试集数据训练。
通过测试CaffeNet以及本文改进的网络,从表 1可以看出,采用深度卷积神经网络方法与传统手工特征方法的识别准确率从整体上体现出极大的优越性。表 1结果表明CaffeNet和本文网络分别连接HOG金字塔特征后分类准确率都有明显提高,尤其在Indoor-67测试集。这是因为经过特征融合后,低层特征描述得到改善,进而提高了分类准确率。通过以上实验,从表 1中可以看出所提方法在三个公开数据库上与DDSFL、SIFT等手工特征和CaffeNet模型相比较都表现出更好的分类准确率。其中CaffeNet模型参数比本文网络更多,但是识别效果上与本文网络相比还有较大差距,说明深度卷积网络结构对网络的识别准确率有较大影响。
从表 1中实验结果对比可以得出使用调优训练比直接使用数据集数据训练的网络识别准确率有显著提升,因此训练网络时采用两个阶段的方法是非常有效的。
4.3.2 实验二自建数据库测试,总共有3668张,每个类别的张数在600~650,测试方法是每类选取450张作为训练,剩下968张作为测试数据。部分图样示例如图 6所示。
在自建图库上分别使用LBP、HOG、CaffeNet和本文网络并分别结合HOG特征进行分类测试,最终测试的分类结果如表 2所示。实验结果与前面公开库测试的效果基本一致,表明所提采用深度网络学习特征与HOG金字塔特征相结合的方法对各类场景分类都有效果,所提方法适应性强。
图 7、8分别是本文网络与本文网络+HOG特征分类模型对6类场景分类所产生的混淆矩阵。
从图 8混淆矩阵对比可以看出,结合HOG金字塔特征后,分类效果还是有明显的提高。图 9抽取了部分水域分类错误的场景示例,其中:图 9(a)被归入为树丛灌木,图 9(b)图被识别为泥地,可以看出图 9(a)和图 9(b)中图像的特征与被错分场景类别色调非常接近,说明卷积网络低层特征对色彩较为敏感,但局部细节特征的提取不足。对比图 7~8混淆矩阵结果可以看出,水域类别的分类结果有比较明显的提升,说明加入HOG特征后,一定程度上弥补了卷积神经网络低层局部细节特征提取不足的缺陷。
系统识别过程中需要进行HOG特征提取和深度自学习特征提取并分类,其中深度特征提取需要计算量比较大。系统采用多线程并行处理方法同时进行特征提取和识别处理,运行方式在本文的硬件环境下有两种方式可以选择,一种是全采用中央处理器(Central Processing Unit, CPU)处理每张测试图片,耗时1.54 s;另一种是采用CPU与图形处理器(Graphic Processing Unit, GPU)联合的方式每张耗时0.07 s。两种运行方法处理时间的差别主要是在深度自学习特征提取上,CPU所花时间约为GPU的20倍。
本文场景分类系统采用CPU提取HOG特征与GPU获取深度自学习特征的并行工作方式,视频图像场景识别实时处理速度约14.3 frame/s,处理速度满足降落场景识别需求。
5 结语针对UAV降落场景识别问题,提出了一种基于卷积神经网络与HOG提取联合特征的方法,并使用SVM分类器进行分类识别。使用深度卷积神经网络方法与传统手工特征提取方法在降落场景识别的准确率上有绝对优势,但在局部特征提取上存在不足而HOG方法可弥补局部细节提取不足的缺陷。深度卷积网络模型参数规模大,拟合能力强,在小样本训练时容易造成过拟合问题,通过采用大数据集预训练方法可解决该问题。实验结果表明,通过联合深度学习自学习特征和手工提取局部特征的方法能有效提高场景特征的描述能力,提高降落场景的识别准确率。本文中方法的识别准确率与应用要求还有距离,下一步将通过优化深度网络模型结构和测试数据样本获取更好的场景自学习特征,并结合低层局部特征或BOVW模型特征来补充深度自学习局部特征的不足,进一步提高系统降落场景识别准确率。
[1] | FU Y, ZHANG Y M, YU X. An advanced sense and collision avoidance strategy for unmanned aerial vehicles in landing phase[J]. IEEE Aerospace and Electronic Systems Magazine, 2016, 31(9): 40-52. DOI:10.1109/MAES.2016.150166 |
[2] | 郑攀. 小型无人机在公共安全领域的应用前景展望[J]. 警察技术, 2013, 4(4): 53-55. (ZHENG P. Application prospect of small UAV in public security[J]. Police Technology, 2013, 4(1): 53-55.) |
[3] | 李世秋. 无人自转旋翼机现状及在军事领域的应用研究[J]. 飞航导弹, 2014(1): 49-53. (LI S Q. The situation of unmanned rotorcraft and its application in military field[J]. Aerodynamic Missile Journal, 2014(1): 49-53.) |
[4] | LOWE D G. Distinctive image features from scale-invariant key points[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94 |
[5] | DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC:IEEE Computer Society, 2005:886-893. |
[6] | OJALA T, PIETIKAINEN M, MAENPA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987. DOI:10.1109/TPAMI.2002.1017623 |
[7] | OLIVA A, TORRALBA A. Building the gist of a scene:the role of global image features in recognition[J]. Progress in Brain Research, 2006, 155(2): 23-36. |
[8] | LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[C]//CVPR'06:Proceedings of the 2006 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC:IEEE Computer Society, 2006:2169-2178. |
[9] | LI T, MEI T, KWEON I S, et al. Contextual bag-of-words for visual categorization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(4): 381-392. DOI:10.1109/TCSVT.2010.2041828 |
[10] | FERNANDO B, FROMONT E, MUSELET D, et al. Supervised learning of Gaussian mixture models for visual vocabulary generation[J]. Pattern Recognition, 2012, 45(2): 897-907. DOI:10.1016/j.patcog.2011.07.021 |
[11] | 顾广华, 韩晰瑛, 陈春霞, 等. 图像场景语义分类研究进展综述[J]. 系统工程与电子技术, 2016, 38(4): 936-948. (GU G H, HAN X Y, CHEN C X, et al. Survey on semantic scene classification research[J]. Systems Engineering and Electronics, 2016, 38(4): 936-948.) |
[12] | 赵理君, 唐娉, 霍连志, 等. 图像场景分类中视觉词包模型方法综述[J]. 中国图象图形学报, 2014, 19(3): 333-343. (ZHAO L J, TANG P, HUO L Z, et al. Review of the bag-of-visual-words models in image scene classification[J]. Journal of Image and Graphics, 2014, 19(3): 333-343.) |
[13] | KOSKELA M, LAAKSONEN J. Convolutional network features for scene recognition[C]//MM'14:Proceedings of the 2014 ACM International Conference on Multimedia. New York:ACM, 2014:1169-1172. |
[14] | ZHOU B, LAPEDRIZA A, XIAO J X, et al. Learning deep features for scene recognition using places database[C]//NIPS'14:Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA:MIT Press, 2014:487-495. |
[15] | AZIZPOUR H, RAZAVIAN A S, SULLIVAN J, et al. From generic to specific deep representation for visual recognition[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC:IEEE Computer Society, 2014:36-45. |
[16] | CIRESAN D C, MEIER U, MASCI J, et al. Flexible, high performance convolutional neural networks for image classification[C]//Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence. Menlo Park, CA:AAAI Press, 2011:1237-1242. |
[17] |
徐珊珊. 卷积神经网络研究与应用[D]. 南京: 南京林业大学, 2013: 20-22. XU S S. Research and application of convolution neural network[D]. Nanjing:Nanjing Forestry University, 2013:20-22. |
[18] | ZUO Z, WANG G, SHUAI B, et al. Exemplar based deep discriminative and shareable feature learning for scene image classification[J]. Pattern Recognition, 2015, 48(10): 3004-3015. DOI:10.1016/j.patcog.2015.02.003 |
[19] | WU J X, REHG J M. CENTRIST:a visual descriptor for scene categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1489-1501. DOI:10.1109/TPAMI.2010.224 |
[20] | XIAO J X, HAYS J, EHINGER K A, et al. SUN database:large-scale scene recognition from abbey to zoo[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC:IEEE Computer Society, 2010:3485-3492. |