基于圆形感兴趣区域多路视频实时拼接

引用本文

王寒光, 王旭光, 汪浩源. 基于圆形感兴趣区域多路视频实时拼接[J]. 计算机应用, 2016, 36(10): 2849-2853.DOI: 10.11772/j.issn.1001-9081.2016.10.2849. 复制到剪切板

WANG Hanguang, WANG Xuguang, WANG Haoyuan. Multi-channel real-time video stitching based on circular region of interest[J]. JOURNAL OF COMPUTER APPLICATIONS, 2016, 36(10): 2849-2853. DOI: 10.11772/j.issn.1001-9081.2016.10.2849. 复制到剪切板

基金项目

江苏省产学研前瞻性联合研究项目（BY2014064）

通信作者

王旭光(1976—),男,吉林长春人,研究员,博士,主要研究方向:图像处理、实时控制,E-mail:xgwang2009@sinano.ac.cn

作者简介

王寒光(1990—),男,陕西渭南人,硕士研究生,主要研究方向:视频处理;
汪浩源(1992—),女,安徽芜湖人,硕士研究生,主要研究方向:视频处理

文章历史

收稿日期：2016-04-11
修回日期：2016-06-06

Contents Abstract Full text Figures/Tables PDF

基于圆形感兴趣区域多路视频实时拼接

王寒光^1,2, 王旭光², 汪浩源²

1. 上海大学通信与信息工程学院, 上海 200072 ;
2. 中国科学院苏州纳米技术与纳米仿生研究所, 江苏苏州 215123

收稿日期：2016-04-11 ；修回日期：2016-06-06

基金项目：江苏省产学研前瞻性联合研究项目（BY2014064）

作者简介：王寒光(1990—),男,陕西渭南人,硕士研究生,主要研究方向:视频处理;
汪浩源(1992—),女,安徽芜湖人,硕士研究生,主要研究方向:视频处理

通讯联系人：王旭光(1976—),男,吉林长春人,研究员,博士,主要研究方向:图像处理、实时控制,E-mail:xgwang2009@sinano.ac.cn

摘要: 针对视频拼接过程中面临的许多挑战，如实时性、有动态物体产生鬼影现象等，提出了一种基于圆形感兴趣区域（ROI）图像配准结合简化处理及图形处理器（GPU）加速的方法。首先，仅在ROI内提取特征点，提高了特征检测效率和匹配准确率。其次，为进一步降低时间开销，满足视频处理实时性需求，采用了两种策略：一方面，通过简化处理仅对首帧作图像配准，后续帧利用得到的单应性矩阵进行图像融合；另一方面，利用GPU多核实现并行化硬件加速。此外，当视场中有动态物体时，采用图形分割和多频带图像融合算法，有效地消除了鬼影。实验对两路640×480的视频进行拼接，该方法的处理速度可达27.8帧/秒。相对于基于加速鲁棒特征（SURF）算法的视频拼接方法，效率提高了26.27倍；相对于基于带方向的加速分段测试特征提取结合旋转的二进制鲁棒独立元素特征描述（ORB）算法的视频拼接方法，效率提高了11.57倍。实验结果表明，该方法可将多路视频实时地拼接为高质量的大场景视频。

关键词: 视频拼接加速鲁棒特征圆形感兴趣区域实时性消除鬼影

Multi-channel real-time video stitching based on circular region of interest

WANG Hanguang^1,2, WANG Xuguang², WANG Haoyuan²

1. School of Communication and Information Engineering, Shanghai University, Shanghai 200072, China ;
2. Suzhou Institute of Nano-Tech and Nano-Bionics, Chinese Academy of Sciences, Suzhou Jiangsu 215123, China

Foundation Item: This work is partially supported by the Prospective Joint Research Project of Industry-University-Research in Jiangsu Province (BY2014064)

Author introduction: WANG Hanguang, born in1990, M. S. candidate. His research interests include video processing;
WANG Haoyuan, born in 1992, M. S. candidate. Her research interests include video processing

Abstract: Aiming at real-time requirements and elimination ghost produced by moving object in video stitching, a method based on circular Region Of Interest (ROI) image registration was proposed by using the simplified process and Graphics Processing Unit (GPU) acceleration. Firstly, the feature extraction only occured in the ROI area, which improved the detection speed and the feature matching accuracy. Secondly, to further reduce the time cost and meet the real-time requirements for video processing, two strategies were used. On one hand, only the first frame was used for matching, while the subsequent frames used the same homography matrix to blend. On the other hand, GPU was adopted to realize hardware acceleration. Besides, when there are dynamic objects in the field of view, the graph-cut and multi-band blending algorithms were used for image blending, which can effectively eliminate ghost image. When stitching two videos of 640×480, the processing speed of the proposed method was up to 27.8 frames per second. Compared with the Speeded Up Robust Features (SURF) and Oriented features from Accelerated Segment Test (FAST) and Rotated BRIEF (ORB), the efficiency of the proposed method was increased by 26.27 times and 11.57 times respectively. Experimental results show the proposed method can be used to stitch multi-channel videos into a high quality video.

Key words: video stitching Speeded Up Robust Feature (SURF) circular Region Of Interest (ROI) real-time eliminating ghost

0 引言

近年来,视频处理技术的研究成果丰硕,同时其应用也较为广泛。视频拼接技术作为视频处理技术一个重要分支,是将多路视频利用拼接技术合成宽视角视频。视频拼接广泛应用于安防监控、医学诊断、卫星遥感等多个领域。

通常视频拼接有两种实现方式:1)利用固定在云台上的单个采集设备,沿某一方向移动或旋转,获取周围场景。由于得到的视频内容不同步,可能对后期处理造成较大的影响;2)多个采集设备同步获取视频图像,然后对同一时刻对应的视频帧进行类似于图像拼接操作。

目前,有多种视频拼接方法及实现方式^[1-8]。从工程实现角度,文献^[4]提出基于加速鲁棒特征(Speeded Up Robust Feature,SURF)算法和动态感兴趣区域(Region Of Interest,ROI)的两路视频拼接,能够得到较好的拼接质量,但仍不能满足实时性需求。文献^[5]视频拼接过程中,当场景中有动态物体时,采用前后背景分离,先将背景拼接起来,然后再将前景插入,该方法不适合背景较为复杂的情况。文献^[6]采用渐入渐出融合算法,提高了拼接效率,但没有解决含有动态物体产生的鬼影现象。尺度不变特征变换(Scale Invariant Feature Transform,SIFT)算法^[9]和SURF算法^[10]因其具有尺度不变性、旋转不变性和对光照不敏感等优点,广泛应用于图像配准,然而受限于较大的时间开销,不适用于视频处理方面。很多研究者尝试从硬件加速角度,利用GPU对SIFT或SURF实现加速^[11-14],能够有效地提高特征提取效率。文献^[11-13]利用GPU对SIFT算法加速,分辨率为640×480的视频,处理效率分别为10frame/s、17frame/s和20frame/s。此外,带方向的加速分段测试特征提取结合旋转的二进制鲁棒独立元素特征描述(Oriented FAST and Rotated BRIEF,ORB)算法^[15]是一种高效的特征检测方法,广泛应用于对实时性要求较高的场景^[16-17]。如，文献^[16]在动态场景中采用ORB对运动目标检测,文献^[17]将其应用于视频稳像技术中。

本文在文献^[4]基础之上,首先,利用相位相关法提取圆形ROI；其次,分别实现了基于SURF和ORB的视频拼接,且对SURF算法采用GPU加速；最后,有效地消除视场中含有动态物体产生的鬼影现象。

1 视频拼接流程

如图 1所示,通用的视频拼接流程大致可分为四部分:视频采集、图像配准、图像融合及视频显示或存储。

图 1 通用的视频拼接流程

1) 视频采集:本文采用两路USB 2.0摄像头同步采集,为了确保视频拼接的质量,视场之间必须有部分重叠区域。

2) 图像配准:主要包括特征提取、特征匹配、计算单应性矩阵H及利用矩阵H对摄像头参数调整四部分。首先,对输入的同一时刻对应帧采用SURF/ORB算法特征提取;其次,针对提取到的大量特征点完成初匹配与筛选;最后,由筛选后的点对估算出单应性矩阵H,并通过矩阵H调整摄像头外部参数。

3) 图像融合:主要由图像变换、曝光补偿和图像融合三部分组成。利用步骤2)得到的单应性矩阵H,对待拼接的图像作单应性变换。若视频源之间存在不同程度的曝光,需要先进行曝光补偿。

4) 重复步骤1)~3),即可得到大场景的视频输出。

2 改进的实时视频拼接处理

由视频拼接流程可知,若要得到大场景视频实时输出,需要快速的视频处理。然而,即使性价比较高的SURF或ORB算法,也很难实时地特征提取,进而会对视频实时拼接产生很大的挑战。另外,视频是动态的图像序列,当视场中含有动态物体,拼接后的视频可能会出现鬼影或断层现象。

针对以上两类问题,在实现视频实时处理方面,本文在SURF和ORB算法的基础上,改进了特征提取过程,仅在圆形ROI区域而非整幅图像内提取特征点。其次,通过简化处理过程,从首帧中得到单应性矩阵H和调整后相机参数信息,后续视频帧可跳过图像配准过程,直接进行图像融合处理,最终输出拼接后的大场景视频。当场景中含有动态物体时,文中采用图形分割算法(Graph-Cut),在重叠区域中寻找最优的分割线,并依据此分割线决定重叠区域内容来源于左视图还是右视图。

2.1 提取圆形ROI区域

假设两幅待匹配图像间仅存在平移关系,将图像变换到频域空间,利用相位相关法估算出两幅图像的重叠区域^[18]。若图像I₁(x,y)和I₂(x,y)之间的平移量为(x₀,y₀),则平移运动模型表示为:

${{I}_{2}}\left( x,y \right)={{I}_{1}}(x-{{x}_{0}},y-{{y}_{0}})$

(1)

将式(1)进行傅里叶变换:

${{F}_{2}}\left( u,v \right)={{e}^{-j\cdot 2\pi \left( u\cdot {{x}_{0}}+v\cdot {{y}_{0}} \right)}}{{F}_{1}}(u,v)$

(2)

用I₁和I₂的归一化互功率谱来确定相位相关矩阵:

$P\left( u,v \right)=\frac{F_{1}^{*}\left( u,v \right){{F}_{2}}(u,v)}{\left| F_{1}^{*}\left( u,v \right){{F}_{2}}(u,v) \right|}={{e}^{-j\cdot 2\pi \left( u\cdot {{x}_{0}}+v\cdot {{y}_{0}} \right)}}$

(3)

其中F₁^*(u,v)为F₁(u,v)的复共轭,对式(3)求其傅里叶反变换,则有:

$\delta (x-{{x}_{0}},y-{{y}_{0}})={{F}^{-1}}[{{e}^{-j\cdot 2\pi \left( u\cdot {{x}_{0}}+v\cdot {{y}_{0}} \right)}}]$

(4)

通过δ函数中出现的脉冲峰值位置确定两幅图像之间的平移运动参数(x₀,y₀)，进一步结合原图像的边界估算出图像I₁和I₂的重叠区域L:

$\left\{ \begin{align} & w={{w}_{1}}-\left| {{x}_{0}} \right| \\ & h={{h}_{1}}-\left| {{y}_{0}} \right| \\ \end{align} \right.$

(5)

其中:w和h是重叠区域的列和行宽;w₁和h₁是图像I₁的列和行宽。

通常,为了得到拼接效果较好的大场景或全景图,要求待拼接的图像之间有至少20%的重叠区域。文献^[19-20]利用式(5)估算出的矩形重叠区域,并在此基础上进行图像配准等处理。矩形重叠区域比较直观地描述了两幅图像之间相似程度,但是此类区域一般会包含大量的边缘信息,边缘特征点对的伪匹配率较高;同时矩形区域受列宽w和行宽h两个因素约束,对于不同重叠程度的图像,重叠区域的选取对后续处理的效率和质量影响较大。

此外,考虑到大部分摄影者取景时往往会将重点关注的事物调整到靠近图像中间的区域。鉴于以上原因,本文在式(5)的基础上,从已得到的重叠区域L内,找到中心点位置C(x,y),并以此点为圆形ROI的圆心。

假设圆形ROI的半径为R。当L较大(大于原图像的50%)时,R的值取w和h的最小值;当L较小(至少是原图像的20%)时,R的值取w₁/4 和h₁/4，以及w和h两者中的较小值的最大值,则有:

$R=\max (\min (w,h),{{{w}_{1}}}/{4}\;,{{{h}_{1}}}/{4}\;)$

(6)

由圆心C和半径R确定的圆形区域,即为文中所找的圆形ROI区域,并以此作为图像配准的基础。

2.2 简化处理过程

本文适用于固定采集设备的场景,若每一帧执行如图 1所示的处理步骤,很难满足视频实时处理需求。本文采用简化处理过程策略:保证拼接质量的前提下,利用简化处理过程来提高效率。具体流程如图 2所示,仅对首帧进行图像配准和图像融合处理,同时缓存图像配准后的单应性矩阵H和调整后的相机参数等信息,后续帧省去图像配准过程,直接进行图像融合。因此,视频拼接的效率主要取决于图像融合过程。

图 2 简化处理过程的视频拼接流程

2.3 求解单应性矩阵H

在计算机视觉中,平面的单应性定义为一个平面到另一个平面的投影映射。以摄像机成像仪上的点Q映射到二维平面上的点q为例,求解对应的单应性关系。

假设Q=[X_i Y_i Z_i 1]^T,q=[x_i y_i 1]^T,则单应性可表示为:

$q=sHQ$

(7)

其中:s为尺度因子；H为单应性矩阵。

矩阵H由成像平面的物理变换W与摄像机内参数矩阵M两部分组成^[21]。物理变换反映的是与成像平面相关的旋转和平移关系,可表示为:

$W=[\begin{matrix} R & t \\ \end{matrix}]$

(8)

其中:R为3×3的旋转矩阵；t为一个3维的列矢量。

将式(8)代入式(7)并展开,则有:

$\left[ \begin{array}{l} {x_i}\\ {y_i}\\ 1 \end{array} \right] = sM[{r_1},{r_2},{r_3},t]\left[ \begin{array}{l} {X_i}\\ {Y_i}\\ 0\\ 1 \end{array} \right] = sM[{r_1},{r_2},t]\left[ \begin{array}{l} {X_i}\\ {Y_i}\\ 1 \end{array} \right]$

(9)

对应的

$\begin{array}{l} R = [{r_1},{r_2},{r_3}]\\ M = \left[ {\begin{array}{*{20}{c}} \begin{array}{l} {f_x}\\ 0\\ 0 \end{array}&\begin{array}{l} 0\\ {f_y}\\ 0 \end{array}&\begin{array}{l} {c_x}\\ {c_y}\\ 1 \end{array} \end{array}} \right] \end{array}$

令H=M[r₁ r₂ t],故摄像机成像仪上的点Q与二维平面上的点q单应性关系为:

$\left\{ \begin{align} & q=sH{Q}' \\ & {Q}'={{[{{X}_{i}},{{Y}_{i}},1]}^{T}} \\ \end{align} \right.$

(10)

2.4 消除动态物体鬼影现象

传统的图像融合算法,对重叠区域不进行预处理,当有动态物体时,拼接后得到的图像在重叠区内可能出现鬼影。本文采用Graph-Cut算法,先在重叠区域内寻找一条最优的分割线,并依据此分割线决定重叠区域内容;再结合多频带图像融合算法得到拼接质量较高的大场景图像。

2.4.1 图像分割算法

假设p、q为两幅图像重叠区域内的两个相邻像素,V_A(p)、V_B(p)对应p点的像素值,V_A(q)、V_B(q)对应q点的像素值,匹配质量的代价函数Q(p,q,V_A,V_B):

$Q\left( p,q,{{V}_{A}},{{V}_{B}} \right)=\left| {{V}_{A}}\left( p \right)-{{V}_{B}}\left( p \right) \right|+\left| {{V}_{A}}\left( q \right)-{{V}_{B}}\left( q \right) \right|$

(11)

${Q}'\left( p,q,{{V}_{A}},{{V}_{B}} \right)=\frac{Q\left( p,q,{{V}_{A}},{{V}_{B}} \right)}{\left| G_{A}^{d}\left( p \right) \right|+\left| G_{A}^{d}\left( q \right) \right|+\left| G_{B}^{d}\left( p \right) \right|+\left| G_{B}^{d}\left( q \right) \right|}$

(12)

其中:G_*^d(*)表示A、B区域沿着d方向的梯度值。

如图 3所示,划分过程缓存上一次的划分信息,再迭代地寻找使式(12)代价函数值最小的划分路线。具体划分细节及迭代过程可参考文献^[22]。几次迭代之后便可得到一条较优的分割线,分割线的左侧取图像I₁对应的位置,右侧取图像I₂对应的位置。

图 3 图像分割算法示意图

2.4.2 多频带融合算法

多频带图像融合算法的本质是在拉普拉斯金字塔各层内求加权平均的总和。该算法实现分为三部分:首先对原图像利用高斯核函数下采样,得到高斯金字塔;然后对第i(i≥1)层进行上采样,并与高斯金字塔第i-1层作差分,得到拉普拉斯金字塔;最后,在拉普拉斯金字塔各层内对重叠区域求加权平均,再将各层图像求和得到融合后的图像^[23-24]。

假设两幅图像I_A和I_B,分别与一系列高斯核函数卷积得到高斯金字塔GA_l和GB_l(0<l<N),下采样过程(REDUCE)可表示为:

${{G}_{l}}=REDUCE[{{G}_{l-1}}]$

(13)

则:

$\begin{align} & G{{A}_{l}}(i,j)=\sum{\sum\limits_{m,n=1}^{5}{w(m,n)G{{A}_{l-1}}(2i+m,2j+n)}} \\ & G{{B}_{l}}(i,j)=\sum{\sum\limits_{m,n=1}^{5}{w(m,n)G{{B}_{l-1}}(2i+m,2j+n)}} \\ \end{align}$

(14)

其中:w(m,n)为一个5×5的窗口函数；N为金字塔层数。

上采样(EXPAND)和拉普拉斯金字塔的构建过程,可表示为:

${{G}_{l,0}}={{G}_{l}}$

(15)

对于k>0,

${{G}_{l,k}}=EXPAND[{{G}_{l,k-1}}]$

(16)

则:

$\begin{align} & G{{A}_{l,k}}(i,j)=4\sum{\sum\limits_{m,n=-2}^{2}{G{{A}_{l,k-1}}\left( \frac{2i+m}{2},\frac{2j+n}{2} \right)}} \\ & G{{B}_{l,k}}(i,j)=4\sum{\sum\limits_{m,n=-2}^{2}{G{{B}_{l,k-1}}\left( \frac{2i+m}{2},\frac{2j+n}{2} \right)}} \\ \end{align}$

(17)

对应的拉普拉斯金字塔为:

$\left\{ \begin{align} & L{{A}_{l}}=G{{A}_{l}}-EXPAND[G{{A}_{l-1}}] \\ & L{{B}_{l}}=G{{B}_{l}}-EXPAND[G{{B}_{l-1}}] \\ \end{align} \right.$

(18)

其中:LA_N=GA_N,LB_N=GB_N。

在拉普拉斯金字塔各层之间的图像融合过程可表示为:

$L{{S}_{l}}(i,j)=\left\{ \begin{matrix} \begin{matrix} L{{A}_{l}}(i,j) & i<{{2}^{N-1}} \\ \end{matrix} \\ \begin{matrix} {\left( L{{A}_{l}}(i,j)+L{{B}_{l}}(i,j) \right)}/{2}\; & i={{2}^{N-1}} \\ \end{matrix} \\ \begin{matrix} L{{B}_{l}}(i,j) & italic>{{2}^{N-1}} \\ \end{matrix} \\ \end{matrix} \right.$

(19)

其中:i=2^N-1表示融合图像的中线,即两幅图像之间的交界线。

最后,将对各层拉普拉斯金字塔的求和,可得到融合后的图像S:

$S=\sum\limits_{l=0}^{N}{L{{S}_{l}}}$

(20)

2.4.3 鬼影现象的消除

对于待拼接的两幅图像I_A(^x,y)和I_B(x,y),通过2.3节得到的单应性矩阵H,对图像I_B作单应性变换,变换后的图像为I_B′,即有:

${{I}_{B}}'=H\cdot B$

(21)

对应的图像坐标变换关系为:

${{({x}',{y}')}^{T}}=H\cdot {{(x,y,1)}^{T}}$

(22)

从前两节的推导过程可知,由式(12)在图像I_A和I_B′的重叠区域内得到最优的分割线,即使在重叠区域内含有动态物体,分割线也会将它划分在同一区域中,或全部在左视图,或全部在右视图。由式(19)确定分割线以上及以外,融合图像的像素值。位于分割线上和其邻域(一般取30个像素)内的像素值取两幅图的均值,分割线左侧取自左视图,反之取自右视图。以此便得到融合后图像的拉普拉斯金字塔,再利用式(20)求和得到最终的融合图像S′:

${S}'=\sum\limits_{l=0}^{N}{L{{{{S}'}}_{l}}}$

(23)

其中:LS′_l表示为图像I_A和I_B′在拉普拉斯金字塔各层之间的图像融合结果。

$L{{{S}'}_{l}}(i,j)=\left\{ \begin{matrix} \begin{matrix} L{{A}_{l}}(i,j) & i<{{2}^{N-1}} \\ \end{matrix} \\ \begin{matrix} {\left( L{{A}_{l}}(i,j)+L{{{{B}'}}_{l}}(i,j) \right)}/{2}\; & i={{2}^{N-1}} \\ \end{matrix} \\ \begin{matrix} L{{{{B}'}}_{l}}(i,j) & italic>{{2}^{N-1}} \\ \end{matrix} \\ \end{matrix} \right.$

(24)

3 实验结果与分析

该系统实验测试平台为Intel S5520UR,主频2.26GHz,内存144GB；搭载Linux 64位操作系统；视频采集设备选用普通的USB摄像头(型号OV 6045),最大分辨率为1280×720,帧频30frame/s,视场角80°~100°；GPU型号是NVIDIA Quadro K2200。

3.1 圆形ROI区域的提取

特征提取是在原图像中提取特征点,可以得到丰富的特征信息,但特征检测需要遍历整幅图像,时间开销太大,导致特征提取效率较低。同时匹配点对中存在部分伪匹配现象,会影响最终图像拼接的质量。基于圆形ROI区域的特征提取,由于仅对图像局部区域处理,提取效率高同时匹配点对的错误率低。

如图 4所示,原图像的分辨率为1280×720,图 4(c)~(f)分别为提取到的矩形和圆形ROI区域。实验对比了在原图像、矩形和圆形ROI区域内,分别基于SIFT、SURF和ORB的特征提取情况,统计数据见表 1。表中包括对不同图像区域特征提取的粗匹配点对数、正确匹配点对数、正确匹配率及特征提取时间。

图 4 提取ROI区域示意图

从表 1中可知,三种特征提取方法实验结果皆表明:基于圆形ROI特征提取不仅效率最高,同时正确匹配率最大,能够有效地实现图像配准。

表 1 三种特征提取方法提取效率与正确率的对比

3.2 拼接质量

通常,简单的图像融合算法,如渐入渐出法、改进的加权平均法、中值滤波法等,能够较快速地得到拼接图像,但拼接质量很难得到保证。传统简单的图像融合算法可能会导致图像拼接后,重叠区域内出现鬼影或混叠现象,如图 5(a)和(b)所示。本文采用Graph-Cut算法结合多频带图像融合,由图 5(c)可知(总计200帧实验),尽管视场中有动态物体移动,连续多帧(16帧)视频拼接效果良好,有效地消除了鬼影现象。

图 5 拼接效果示意图

3.3 拼接效率

本文做了多组对照实验,在分辨率为640×480情况下,分别对比了基于SURF和基于ORB视频拼接实现,以及基于SURF和利用GPU加速的SURF视频拼接实现。

图 6(a)对比了基于SURF和基于ORB视频拼接效率。实验结果表明,基于SURF的视频拼接效率主要取决于其图像配准过程,约占总时间的73.4%。而基于ORB的视频拼接效率受图像融合影响最大,约占总时间的61.2%。同时,本文提出的圆形ROI特征提取能够显著地提高视频处理效率。

图 6 拼接效率对比

图 6(b)对比了基于SURF及其GPU加速的视频拼接效率。实验结果表明,GPU加速效果明显,由前4个实验结果可知,图像配准效率提高了约10倍,图像融合效率提高了约3倍。

基于文献^[4]在感兴趣区域内实现图像配准，本文进一步实现了GPU加速SURF算法,以及视频过程的简化处理。视频拼接实时性分析结果如表 2所示。从表 2可看出,本文方法在最优情况下,视频拼接时间仅需要36.3ms,能够满足视频处理实时性需求。

表 2 视频拼接实时性分析

4 结语

本文提出了一种基于圆形ROI图像配准方法,在固定采集设备的实验条件下,仅对首帧作图像配准,后续帧利用得到的单应性矩阵H直接进行图像融合,在保证拼接质量的前提下,有效地提高了视频拼接效率,能够实现27.8frame/s的处理速度。当视场中含有动态物体时,采用Graph-Cut和多频带图像融合算法,有效地消除了鬼影。实验分别基于SURF和ORB图像配准,都得到了良好的拼接效果。本文工作是基于上位机实现的,下一步考虑将本文方法优化移植到Xilinx ZYNQ FPGA上,借助软硬件协同设计来实现。

参考文献

[1]	LI J, XU W, ZHANG J, et al. Efficient video stitching based on fast structure deformation[J]. IEEE Transactions on Cybernetics, 2015, 45 (12) : 2707-2719. doi: 10.1109/TCYB.2014.2381774 (0)
[2]	LEE K Y, SIM J Y. Robust video stitching using adaptive pixel transfer[C]//Proceedings of the 2015 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2015: 813-817. (0)
[3]	JIANG W, GU J. Video stitching with spatial-temporal content-preserving warping[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE,2015: 42-48. (0)
[4]	首照宇, 欧阳宁, 张华俊, 等. 基于SURF和动态ROI的实时视频拼接[J]. 计算机工程与设计, 2013, 34 (3) : 998-1003. ( SHOU Z Y, OUYANG N, ZHANG H J, et al. Research on real-time video stitching based on SURF and dynamic ROI[J]. Computer Engineering and Design, 2013, 34 (3) : 998-1003. ) (0)
[5]	ZHANG Y, JIA K, LIU P. Video stitch algorithm based on dynamic foreground extraction[C]//CISP 2009: Proceedings of the 2nd International Congress on Image and Signal Processing. Piscataway, NJ: IEEE, 2009: 1-5. (0)
[6]	雷飞, 王文学, 王雪丽, 等. 基于改进SURF的实时视频拼接方法[J]. 计算机技术与发展, 2015, 25 (3) : 32-35. ( LEI F, WANG W X, WANG X L, et al. Real-time video stitching method based on improved SURF[J]. Computer Technology and Development, 2015, 25 (3) : 32-35. ) (0)
[7]	YIN X, LI W, LIU Y, et al. FPGA-based real time video stitching method for video surveillance[J]. Optik — International Journal for Light and Electron Optics, 2015, 126 (21) : 2804-2808. doi: 10.1016/j.ijleo.2015.07.013 (0)
[8]	LI J, YANG T, YU J, et al. Fast aerial video stitching[EB/OL].[2015-04-24]. http://www.intechopen.com/download/pdf/pdfs_id/47643. (0)
[9]	LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60 (2) : 91-110. doi: 10.1023/B:VISI.0000029664.99615.94 (0)
[10]	BAY H, ESS A, TUYTELAARS T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110 (3) : 346-359. doi: 10.1016/j.cviu.2007.09.014 (0)
[11]	SINHA S N, FRAHM J M, POLLEFEYS M, et al. Feature tracking and matching in video using programmable graphics hardware[J]. Machine Vision and Applications, 2011, 22 (1) : 207-217. doi: 10.1007/s00138-007-0105-z (0)
[12]	HEYMANN S, MULLER K, SMOLIC A, et al. SIFT implementation and optimization for general-purpose GPU[EB/OL].[2014-11-15]. HTTP://wscg.zcu.cz/wscg/Papers_2007/Full/G03-full.pdf. (0)
[13]	ACHARYA K A, BABU R V, VADHIYAR S S. A real-time implementation of SIFT using GPU[J/OL]. Journal of Real-Time Image Processing, 2014: 1-11 [2015-05-23].http://link.springer.com/article/10.1007/s11554-014-0446-6. (0)
[14]	CHOU C H, LIU P, WU T Y, et al. Implementation of parallel computing FAST algorithm on mobile GPU[C]//Proceedings of the 2012 International Conference on Electrical and Electronics Engineering, LNEE 238. Berlin: Springer,2014: 1275-1281. (0)
[15]	RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE,2011: 2564-2571. (0)
[16]	李小红, 谢成明, 贾易臻, 等. 基于ORB特征的快速目标检测算法[J]. 电子测量与仪器学报, 2013, 27 (5) : 455-460. ( LI X H, XIE C M, JIA Y Z, et al. Rapid moving object detection algorithm based on ORB features[J]. Journal of Electronic Measurement and Instrument, 2013, 27 (5) : 455-460. ) (0)
[17]	XU J, CHANG H, YANG S, et al. Fast feature-based video stabilization without accumulative global motion estimation[J]. IEEE Transactions on Consumer Electronics, 2012, 58 (3) : 993-999. doi: 10.1109/TCE.2012.6311347 (0)
[18]	SARVAIYA J N, PATNAIK S, KOTHARI K. Image registration using log polar transform and phase correlation to recover higher scale[J]. Journal of Pattern Recognition Research, 2012, 7 (1) : 90-105. doi: 10.13176/11.355 (0)
[19]	孙步强, 静大海. 相位相关法实现视频实时拼接的应用与优化[J]. 科学技术与工程, 2012, 20 (26) : 6618-6621. ( SUN B Q, JING D H. Application and optimization of phase correlation algorithm in real-time video mosaic[J]. Science Technology and Engineering, 2012, 20 (26) : 6618-6621. ) (0)
[20]	方俊伟, 翟超, 金熠. 相位相关法实现图像拼接的仿真与优化[J]. 计算机应用与软件, 2008, 25 (1) : 207-208. ( FANG J W, ZHAI C, JIN Y. Simulation and optimization of phase correlation algorithm in image mosaics[J]. Computer Applications and Software, 2008, 25 (1) : 207-208. ) (0)
[21]	SZELISKI R. Computer Vision: Algorithms and Applications[M]. Berlin: Springer, 2010 : 327 -335. (0)
[22]	KWATRA V, SCHODL A, ESSA I, et al. Graphcut textures: image and video synthesis using graph cuts[J]. ACM Transactions on Graphics, 2003, 22 (3) : 277-286. doi: 10.1145/882262 (0)
[23]	BURT P J, ADELSON E H. The Laplacian pyramid as a compact image code[J]. IEEE Transactions on Communications, 1983, 31 (4) : 532-540. doi: 10.1109/TCOM.1983.1095851 (0)
[24]	BURT P J, ADELSON E H. A multiresolution spline with application to image mosaics[J]. ACM Transactions on Graphics, 1983, 2 (4) : 217-236. doi: 10.1145/245.247 (0)