计算机应用   2017, Vol. 37 Issue (3): 811-816  DOI: 10.11772/j.issn.1001-9081.2017.03.811
0

引用本文 

钱堂慧, 罗志清, 李果家, 李应芸, 李显凯. 核相关滤波跟踪算法的尺度自适应改进[J]. 计算机应用, 2017, 37(3): 811-816.DOI: 10.11772/j.issn.1001-9081.2017.03.811.
QIAN Tanghui, LUO Zhiqing, LI Guojia, LI Yingyun, LI Xiankai. Scale adaptive improvement of kernel correlation filter tracking algorithm[J]. JOURNAL OF COMPUTER APPLICATIONS, 2017, 37(3): 811-816. DOI: 10.11772/j.issn.1001-9081.2017.03.811.

通信作者

罗志清(1963-),男,云南玉溪人,副教授,硕士,主要研究方向:数字化测图、GIS. E-mail:oscarluofu@yahoo.com.cn

作者简介

钱堂慧(1989-),男,云南曲靖人,硕士研究生,主要研究方向:目标跟踪;
李果家(1992-),女,云南昆明人,硕士研究生,主要研究方向:视觉跟踪;
李应芸(1991-),女,云南保山人,硕士研究生,主要研究方向:烟雾识别;
李显凯(1992-),男,云南楚雄人,硕士研究生,主要研究方向:运动目标检测

文章历史

收稿日期:2016-09-26
修回日期:2016-10-21
核相关滤波跟踪算法的尺度自适应改进
钱堂慧, 罗志清, 李果家, 李应芸, 李显凯    
昆明理工大学 国土资源工程学院, 昆明 650093
摘要: 针对基于检测的核相关滤波跟踪(CSK)算法难以适应目标尺度变化的问题,提出多尺度核相关滤波分类器以实现尺度自适应目标跟踪。首先,采用多尺度图像构建样本集,训练多尺度核相关滤波分类器,通过分类器对目标的尺度估计实现目标的最佳尺度检测;然后,在最佳尺度下采集样本在线学习更新分类器,实现尺度自适应的目标跟踪。对比实验与分析表明,本文算法在目标跟踪过程中能够正确适应目标的尺度变化,相比CSK算法,偏心距误差减少至其1/5~1/3,能满足复杂场景长时间跟踪的需求。
关键词: 目标跟踪    多尺度图像    自适应    核相关滤波    
Scale adaptive improvement of kernel correlation filter tracking algorithm
QIAN Tanghui, LUO Zhiqing, LI Guojia, LI Yingyun, LI Xiankai     
College of Land and Resources Engineering, Kunming University of Science and Technology, Kunming Yunnan 650093, China
Abstract: To solve the problem that Circulant Structure of tracking-by-detection with Kernels (CSK) is difficult to adapt to the target scale change, a multi-scale kernel correlation filter classifier was proposed to realize the scale adaptive target tracking. Firstly, the multi-scale image was used to construct the sample set, the multi-scale kernel correlation filtering classifier was trained by the sample set, for target size estimation to achieve the goal of the optimal scale detection, and then the samples collected on the optimal target scale were used to update the classifier on-line to achieve the scale-adaptive target tracking. The comparative experiments and analysis illustrate that the proposed algorithm can adapt to the scale change of the target in the tracking process, the error of the eccentricity is reduced to 1/5 to 1/3 that of CSK algorithm, which can meet the needs of long time tracking in complex scenes.
Key words: target tracking    multi-scale image    self-adaption    Kernel Correlation Filter (KCF)    
0 引言

目标跟踪算法的分类有很多种,按视频数据的处理方式可分成数据驱动(Data Driven)和模型驱动(Model Driven)两种[1]。数据驱动类型的处理方式并不依赖于已有的先验知识,而是根据直接从图像中获取目标的运动状态信息进行跟踪,将视觉目标跟踪过程看作一个信息处理过程,属于这种跟踪方法的有背景差分、帧间差分、光流法等[2-4]。模型驱动的处理方式依赖于先验知识和训练好的模板,根据已有的模板或先验数据对图像序列进行匹配或计算后验概率,采用匹配计算时,与模板距离最近的候选目标被认为是被跟踪的运动目标,采用后验概率计算时,后验概率最大的候选目标认为是所要跟踪的目标。模型驱动的方法在引入机器学习后逐渐形成判别式学习跟踪方法,最典型的有Boosting[5-6]、支持向量机(Support Vector Machine, SVM)[7]和随机森林(Random Forest, RF)[8]等。

基于机器学习的跟踪方法将跟踪视为二分类问题,充分利用目标和背景信息进行在线或者离线学习,寻找规律,将目标从新的图像中区分出来。文献[9]将传统的检测技术和跟踪技术相结合,提出跟踪-学习-检测(Tracking-Learning-Detection, TLD)的跟踪模型,在此框架上,Henriques等[10]提出基于检测的核相关滤波跟踪( Circulant Structure of tracking-by-detection with Kernels, CSK)算法,该算法采用密采样的策略,用循环矩阵结构来组织单张图像采集的样本集,将一帧中多个子窗口的处理归为对一个循环矩阵的处理,并引入核技巧使得线性最小二乘分类能解决非线性问题,最后用核相关滤波将空间域卷积转换至频率域计算,并用快速傅里叶变换提高运算效率。这使得算法能够充分利用目标和背景信息获得精准目标跟踪的同时,还控制了运算量,提高了跟踪速度,对目标形变、光照变化、背景干扰以及部分遮挡等都有很强的适应能力。然而由于缺少对目标的尺度估计,跟踪过程中目标始终保持初始化尺度,虽然能够精确定位,却不能随目标尺度的变化给出相应的目标轮廓。文献[11-12]虽然对CSK的目标表征单一性进行了改进,使算法能利用方向梯度直方图(Histogram of Oriented Gradient, HOG)和颜色等复杂特征来表征目标,却仍然没有考虑目标的尺度变化。本文在CSK算法基础上,通过多尺度图像构建多尺度样本集,训练多尺度核相关滤波分类器,以多尺度分类器的尺度估计功能构成目标尺度监控机制,实时更新目标尺度,实现尺度自适应的目标跟踪算法。

1 尺度自适应目标跟踪

CSK实现目标跟踪的关键步骤是学习训练和目标检测。为了监控目标的尺度变化,在采样训练时,先对图像进行缩放处理,即对目标尺度进行预先估计,接着用循环矩阵结构分别对各个尺度的图像进行密采样,组成多尺度的循环样本集序列,然后将样本集系列代入结构风险最小化策略,训练多尺度分类器,即求得各个尺度的分类模型参数,最后根据各个尺度的模型参数,对下一帧图像进行目标检测和尺度估计,实现尺度自适应的目标跟踪。

1.1 缩放移位建立多尺度样本集序列

多尺度样本集序列是一序列不同尺度的循环样本集,每个样本集都由原图像缩放后采集的基样本循环移位密采样得到。

1) 缩放图像建立多尺度基样本序列。多尺度基样本序列是对原图像进行缩放后的图像分别采样得到的一序列不同尺度的正样本,也叫基样本。具体步骤如下:

①设置缩放比例,将所有的缩放比例组成一个向量scales,向量的元素scalesi由下式给出:

$scale{{s}_{i}}=1\pm am;m=0,1,\cdots ,M,i=1,2,\cdots ,2M+1$ (1)

其中:a∈(0, 1) 是缩放比例的步长,为正(+)时scalesi>1,是放大尺度,为负(-)时scalesi<1,是缩小尺度;2M+1是总的缩放比例数,m=0时尺度不变。

②对输入的当前帧Frame按照设置好的缩放比例进行缩放操作:

$Fram{{e}_{i}}=ProcessFun(Frame,scale{{s}_{i}});\text{ }i=0,1,\cdots ,2M+1$ (2)

其中:ProcessFun是基于双线性插值[13-14]的尺度缩放函数,Framei表示对当前帧缩放后的多尺度图像序列。

③按照固定尺寸对多尺度图像序列Framei进行目标采样,得到多尺度基样本序列xi。采样窗口的中心点为目标的中心点,坐标随尺度大小作相应变化。

2) 循环移位构建多尺度样本集序列。多尺度样本集序列是对不同尺度的基样本进行循环移位密采样得到的一序列不同尺度的样本集。循环移位密采样的过程,为了表述简单,以单通道一维情况为例进行推导,结果可扩展到单通道二维图像。用一个n×1的向量x=(x1, x2, …, xn)表示基样本,标记为正,然后以x为基础,进行循环移位得到一系列负样本,这可以通过一个置换矩阵p来进行操作:

$\mathit{\boldsymbol{p=}}\left[ \begin{matrix} 0 & 0 & 0 & \cdots & 0 & 1 \\ 1 & 0 & 0 & \cdots & 0 & 0 \\ 0 & 1 & 0 & \cdots & 0 & 0 \\ \vdots & \vdots & \vdots & & \vdots & \vdots \\ 0 & 0 & 0 & \cdots & 1 & 0 \\ \end{matrix} \right]$ (3)

pi上标i表示置换矩阵循环移位的位数,基于x循环移位后的所有样本表示为:

${\mathit{\boldsymbol{x}}_i} = {\mathit{\boldsymbol{p}}^i}\mathit{\boldsymbol{x}};{\rm{ }}\forall i = 0,1, \cdots ,n - 1$ (4)

将所有的样本组成一个循环矩阵X,即为一个样本集:

$\mathit{\boldsymbol{X}} = C\left( \mathit{\boldsymbol{x}} \right) = \left[ {\begin{array}{*{20}{c}} {{x_1}} & {{x_2}} & {{x_3}} & \cdots & {{x_n}}\\ {{x_n}} & {{x_1}} & {{x_2}} & \cdots & {{x_{n - 1}}}\\ {{x_{n - 1}}} & {{x_n}} & {{x_1}} & \cdots & {{x_{n - 2}}}\\ \vdots & \vdots & \vdots & \vdots & \vdots \\ {{x_2}} & {{x_3}} & {{x_4}} & \cdots & {{x_1}} \end{array}} \right]$ (5)

对不同尺度的所有基样本都进行循环移位密采样后就可以得到一个多尺度样本集序列Xk,表示为:

${\mathit{\boldsymbol{X}}^k} = C({\mathit{\boldsymbol{x}}^k}) = \left[ {\begin{array}{*{20}{c}} {x_1^k} & {x_2^k} & {x_3^k} & \cdots & {x_n^k}\\ {x_n^k} & {x_1^k} & {x_2^k} & \cdots & {x_{n - 1}^k}\\ {x_{n - 1}^k} & {x_n^k} & {x_1^k} & \cdots & {x_{n - 2}^k}\\ \vdots & \vdots & \vdots & & \vdots \\ {x_2^k} & {x_3^k} & {x_4^k} & \cdots & {x_1^k} \end{array}} \right]$ (6)

其中:xk(k=0, 1, …,2M+1) 表示基样本序列,一个尺度对应一个基样本和一个基于该样本的样本集。

一维图像循环样本集实例见图 1。在二维图像采样时,只要以目标为中心截取一个大于目标尺度的图像块作为基样本,按照上述规则进行上下和左右循环移位,就可以得到一个包含正负样本的循环样本集。图 2表示对一个二维基样本上下循环移位采样的过程。

图 1 一维图像循环样本集 Figure 1 Circulant sample set of a 1D image
图 2 二维基样本在竖直方向移位采样 Figure 2 Sampling by vertical cyclic shifts of a 2D base sample
1.2 训练多尺度核相关滤波分类器

对于单个尺度的循环样本集,通过岭回归可求解得到该尺度下的最优模型参数,又因为样本集的循环结构,可借用卷积滤波理论[15]将空间域卷积运算转换到频域进行。岭回归是损失函数为平方损失的结构风险最小化策略,目的是求解使得所有样本(x1, y1), (x2, y2), …, (xn, yn)误差平方和最小的模型参数。设xn×1的向量,线性分类模型为f(x)=wTx,则最小化结构风险泛函为:

$u = \mathop {{\rm{min}}}\limits_w \sum\limits_i {{{({y_i} - f({\mathit{\boldsymbol{x}}_i}))}^2} + \mathit{\boldsymbol{\lambda }}{{\left\| \mathit{\boldsymbol{w}} \right\|}^2}} $ (7)

其中,λ是控制过拟合的正则化参数。

若样本在原始特征空间线性可分,岭回归是线性回归问题,求解这个关于样本集的大型线性方程组十分复杂,但由于样本集的循环结构,向量与样本集中每个样本的点积操作恰好是空间卷积滤波过程,因此可转换到频域进行计算,简化了计算的复杂度,这就是著名的对偶相关滤波(Dual Correlation Filter, DCF)[16]

若样本在原始特征空间线性不可分,则通过一个映射函数φ(x)将输入的特征值映射到一个更高维的特征空间实现线性可分。在此情况下求解模型参数需要引入核技巧和表现定理。

核技巧:高维空间两个样本特征的点积可通过一个核函数在原始空间计算得到:

$\left\langle {\varphi \left( \mathit{\boldsymbol{x}} \right),{\rm{ }}\varphi \left( {\mathit{\boldsymbol{x'}}} \right)} \right\rangle = k\left( {\mathit{\boldsymbol{x}},{\rm{ }}\mathit{\boldsymbol{x'}}} \right)$ (8)

其中,核函数k有多项式核和高斯核等。

表现定理(Representer Theorem)[17]:在映射空间,模型参数w可以表示为所有样本的线性组合:

$\mathit{\boldsymbol{w}} = \sum\limits_j {{\alpha _j}\varphi ({\mathit{\boldsymbol{x}}_j})} $ (9)

根据式(8) 和式(9) 有:

$f\left( \mathit{\boldsymbol{x}} \right) = \sum\limits_j {{\alpha _j}k({\mathit{\boldsymbol{x}}_j},{\rm{ }}\mathit{\boldsymbol{x}})} $ (10)

将式(9) 、(10) 代入式(7) 得:

$u = \mathop {{\rm{min}}}\limits_\alpha \sum\limits_i {({y_i} - \sum\limits_j {{\alpha _j}k({\mathit{\boldsymbol{x}}_j},{\rm{ }}{\mathit{\boldsymbol{x}}_i}){)^2}} } + \lambda {\left\| {\sum\limits_j {{\alpha _j}\varphi ({\mathit{\boldsymbol{x}}_j})} } \right\|^2}$ (11)

y表示由yi组成的向量,α表示由αi组成的向量,I为单位矩阵,用K表示由元素Kij=k(xi, xj)=k(pix, pjx)组成的核矩阵,对式(11) 求解关于α的最小值得:

$\mathit{\boldsymbol{\alpha }} = {\left( {\mathit{\boldsymbol{K}} + \lambda \mathit{\boldsymbol{I}}} \right)^{ - 1}}\mathit{\boldsymbol{y}}$ (12)

文献[10]中已证明,由元素Kij=k(pix, pjx)组成的核矩阵也是循环结构的,因此,α的计算过程是一个空间滤波的过程,而空间滤波C(u)v的点乘操作相当于uv的卷积,再由卷积定理有:

$C\left( \mathit{\boldsymbol{u}} \right)v = \mathit{\boldsymbol{u}} \otimes v = {F^{ - 1}}\left( {F*\left( \mathit{\boldsymbol{u}} \right) \cdot F\left( v \right)} \right)$ (13)

其中:⊗表示卷积,·表示逐元点乘,FF-1分别表示傅里叶变换和逆变换,*表示复共轭。

根据式(13) ,式(12) 可以转换到频域计算:

$\mathit{\boldsymbol{\alpha }} = {F^{ - 1}}\left( {\frac{{F\left( y \right)}}{{F\left( \mathit{\boldsymbol{k}} \right) + \lambda }}} \right)$ (14)

这种通过引入核技巧,并用频域代替时域计算线性回归最优解的方法称为核相关滤波(Kernelized Correlation Filter, KCF)[11]。这里的向量k是样本的自相关核kxx

根据核相关滤波的方法,对每个尺度的循环样本集都进行岭回归分析,将得到一组不同尺度的模型参数:

${\mathit{\boldsymbol{\alpha }}^k} = {F^{ - 1}}\left( {\frac{{F({\mathit{\boldsymbol{y}}^k})}}{{F({\mathit{\boldsymbol{k}}^k}) + \lambda }}} \right);{\rm{ }}k = 1,{\rm{ }}2,{\rm{ }} \cdots ,{\rm{ }}2M + 1$ (15)

其中:2M+1为总的尺度数,ykkk分别为对应尺度的标记和自相关核。

将训练得到的单尺度最优分类模型参数式(14) 代回分类模型,对新输入的待检测图块z,计算其分类响应值:

$y' = \sum\limits_i {{\alpha _i}k({\mathit{\boldsymbol{x}}_i},{\rm{ }}z)} $ (16)

检测时同样以循环移位的方式计算一定区域内所有子窗口的响应值,用矩阵K表示由元素Kij=k(xi, zj)组成的核矩阵,用α表示由αi组成的向量,式(16) 可写为:

$\mathit{\boldsymbol{\hat y}} = \mathit{\boldsymbol{\bar K\alpha }} = C(\mathit{\boldsymbol{\bar k}})\mathit{\boldsymbol{\alpha }}$ (17)

矩阵K还可由向量k=k(x, pi-1z)循环移位得到,这里的k是互相关核kxz

根据式(13) 将式(17) 换至频率域计算:

$\mathit{\boldsymbol{\hat y}} = {F^{ - 1}}(F(\mathit{\boldsymbol{\bar k}}) \cdot F(\mathit{\boldsymbol{\alpha }}))$ (18)

将不同尺度的模型参数αk和不同尺度的互相关核kk代入式(18) ,可得到多尺度核相关滤波分类器:

${\mathit{\boldsymbol{\hat y}}^k} = {F^{ - 1}}(F({\mathit{\boldsymbol{\bar k}}^k}) \cdot F({\mathit{\boldsymbol{\alpha }}^k}))$ (19)
1.3 位置检测与尺度估计

根据多尺度核相关滤波分类器的响应值进行目标的位置检测和尺度估计。式(15) 为多尺度模型参数的训练式,式(19) 为多尺度目标检测的分类器,从这两个式子可以看出,输入的数据只是不同尺度的基样本向量、检测图块向量和相应的核向量,要将式(15) 和式(19) 推广到二维图像只需将输入数据换成二维基样本、二维检测图块和对应的核矩阵。响应值的形式还依赖于样本的标记形式,本文采用连续性标记方式对二维基样本进行可信度标记(见图 3),目标中心可信度最高(为1) ,随着离目标中心距离的增加可信度逐渐降低,计算方法见实验的预处理部分。

图 3 位置检测与尺度估计 Figure 3 Location detection and scale estimation

本文多尺度核相关滤波分类器的响应值为一序列代表可信度的矩阵(见图 3),以矩阵最大元素值作为新目标最佳尺度和最佳位置的可信度,最大元素值最大的矩阵对应的尺度为新目标的最佳尺度,最大元素值在该矩阵中的位置为新目标的最佳中心位置。图 3中,待检测图块通过分类器检测后,得到对应的5个响应值矩阵,其中最大可信度为0.98,对应的样本尺度与基样本尺度比值为1.0(因为尺度没有发生变化),该尺度即为新目标的最佳尺度,最大可信度在响应值矩阵中的位置为新目标的位置,也就是矩阵中的亮点位置。

1.4 尺度自适应目标跟踪流程

尺度自适应的目标跟踪器具有目标检测和尺度估计两个功能,跟踪流程主要包括构建多尺度样本集序列、训练多尺度分类器、实现目标检测和尺度估计以及在线更新等几个步骤,见图 4

图 4 尺度自适应目标跟踪流程 Figure 4 Scale adaptive target tracking flow chart

目标状态信息包括目标的位置信息和尺度信息。流程的循环由2个更新实现,一个是目标检测完成后,由下一帧更新当前帧,另一个是由新的目标状态信息更新上一帧目标状态信息,如此不断循环,直到视频序列的最后一帧结束。对每帧图像(除第一帧外)都要进行2次图像块的截取操作,第一次以上一帧中检测到的目标位置为坐标截取图像块,作为检测图块,第二次以当前帧中目标的位置为坐标截取图像块,作为基样本图块,第一帧图像是以给定的目标状态信息直接进行样本图像块的截取。

分类器的在线更新包括实时更新分类参数和用于计算互相关核的基样本,分类参数的更新由新样本训练得到的参数和前面所有参数线性组合完成,基样本的更新由新样本和前面所有基样本线性组合完成。新样本根据新的最佳尺度对目标采样得到,线性组合时,如果新目标有尺度变化,前面所有帧的分类参数和基样本都要先通过缩放处理与新目标保持相同尺度后,再线性组合。因为线性组合要考虑前面所有帧,本文采用迭代加和的方式进行更新。如果用new_α表示新参数,now_α表示前面所有帧参数的线性组合:

$\begin{array}{l} \mathit{\boldsymbol{now}}\_\mathit{\boldsymbol{\alpha }} = (1 - interp\_factor)*ProcessFun\\ (\mathit{\boldsymbol{now}}\_\mathit{\boldsymbol{\alpha }},scale) + interp\_factor*\mathit{\boldsymbol{now}}\_\mathit{\boldsymbol{\alpha }} \end{array}$ (20)

如果用new_x表示新样本,now_x表示前面所有帧样本的线性组合:

$\begin{array}{l} \mathit{\boldsymbol{now\_x}} = (1 - interp\_factor)*ProcessFun\\ (\mathit{\boldsymbol{now\_x}},scale) + interp\_factor*\mathit{\boldsymbol{new\_x}} \end{array}$ (21)

其中,interp_factor表示迭代参数,决定新参数和新样本在线性组合中所占比重,ProcessFun是式(2) 中的图像缩放函数,scale表示旧尺度和新尺度的比值。

2 对比实验与分析

为了验证本文算法的优劣,选择尺寸变化、跟踪精度以及跟踪帧率三个指标进行定性分析,并与CSK算法进行比较。实验硬件环境为Intel Xeon E3-1231 V3 3.40 GHz CPU,8 GB RAM;软件环境为Matlab R2012b。实验数据为实景拍摄的boy序列和VOT测试集中目标具有尺度变化特性的3个视频帧序列。

参数的设定与CSK一样。高斯核函数的δ=0.2,空间带宽s=1/16,正则化参数λ=0.01,插值因子interp_factor=0.075。另外,多尺度样本数设为5,即M=2,缩放步长 a=0.04,scales=(0.92, 0.96, 1.0, 1.04, 1.08) 。

2.1 预处理

本文直接以图像的灰度值作为表观目标的特征进行处理和计算。由于傅里叶变换的周期性不遵循于图像边缘,非周期图像组成循环矩阵时,对边不连续性会导致噪声傅里叶表示,因此需要对样本矩阵进行处理。处理的方法是用一个余弦窗进行平滑处理,假设样本矩阵为n×nXraw,计算公式如下:

$\begin{array}{l} {y_{ij}} = {\rm{exp}}( - ({(i - i')^2} + {(j - j')^2})/{s^2});\\ \forall i,j = 0,1, \cdots ,n - 1 \end{array}$ (22)

从式(22) 可以看出,将样本矩阵的边缘加权值为0,保证了对图像块作周期延拓时图像边缘的连续性。

在训练分类器的时候需要对样本进行标记,也即规定输出值的形式,通常的做法是将离目标中心近的样本标记为正,离得远的标记为负。由于本文的核最小二乘平方损失允许连续数值,因此本文用一个高斯函数对样本进行连续性标记,标记值为可信度,输出的响应值也是连续的可信度。高斯函数标记的基本思路是让接近目标中心位置(i′, j′)的可信度为1,然后随着离目标中心距离的增加,可信度递减到0,并带一个参数s (空间带宽),计算公式如下:

$\begin{array}{l} {y_{ij}} = {\rm{exp}}( - ({(i - i')^2} + {(j - j')^2})/{s^2});\\ \forall i,j = 0,1, \cdots ,n - 1 \end{array}$ (23)

样本的连续标记方式使得输出的分类响应值是空间平滑的,这样确定的目标位置要比二值标记的精确得多。

2.2 实验结果与分析

图 5为本文改进算法和CSK算法在4个测试序列上的跟踪效果图。矩形跟踪框为本文改进算法,椭圆跟踪框为CSK算法,可以看出,CSK算法的跟踪框尺度始终保持不变,而本文改进算法的跟踪框能随着目标尺寸的变化作相应的变化。这说明本文算法克服了CSK的缺点,实现了目标尺度的自适应跟踪。

图 5 目标尺度自适应跟踪 Figure 5 Target scale adaptive tracking

目标跟踪精度根据目标跟踪轨迹与目标真实轨迹的差距来评价。方法是计算视频中每一帧跟踪中心位置与实际目标中心坐标位置的距离,距离d 越小表示跟踪精度越高,反之越低。距离d 由式(24) 得到:

$d = \sqrt {{{({x_t} - {x_c})}^2} + {{({y_t} - {y_c})}^2}} $ (24)

其中,(xt, yt)表示当前帧的跟踪中心位置,(xc, yc)表示当前帧目标实际中心位置。

图 6中可以看出,在水平方向上,本文算法与CSK算法跟踪精度相差不大,而在竖直方向上本文算法明显比CSK算法精度高。这是因为本文算法的目标跟踪框尺度能随着目标尺度的变化作相应的变化,而CSK算法的跟踪框尺度始终保持不变,导致目标在竖直方向上发生较大尺度变化时(参见图 5),CSK算法的跟踪框虽然还在目标上,中心位置却已远离目标中心,而最根本的原因是CSK算法不能适应目标的尺度变化,导致采样训练时没有采集到目标的全貌,也没有足够的背景信息,最终导致分类器精度下降,跟踪精度降低。本文的算法能根据目标的尺度实时更新跟踪框的尺度,随时保证采样的质量和分类器的精度,提高了跟踪精度。图 7是根据式(24) 计算得到的本文算法、CSK算法跟踪轨迹与真实轨迹的误差图。

图 6 boy序列跟踪轨迹 Figure 6 Tracking trajectory of boy sequence
图 7 跟踪框中心偏移目标中心距离图 Figure 7 Distance between track window center and target center

图 7可以看出,本文算法跟踪框中心位置偏移目标中心的距离都在5个像素之内,比CSK算法低得多,特别是对长时间的目标跟踪效果更加明显。跟踪轨迹与真实轨迹的误差可以作为跟踪目标的置信度,如果这个误差大于一定阈值,就判定为跟踪失败,误差越小跟踪精度越高,反之越低。

下面对实验结果进行总体定量评价,跟踪精度根据估计目标中心位置偏移实际目标中心位置平均距离(偏心距)来评定,见表 1;跟踪速度(Frames-Per-Second, PFS)由帧数与跟踪时长的比值来评定,见表 2。结果评价较优的以下划线显示。

表 1 估计目标中心位置偏移实际目标中心位置平均距离 像素 Table 1 Average distance between estimated target center and actual target center pixel
表 2 跟踪速度 帧/s Table 2 Tracking speed frames/s

通过表 1表 2可以看出,本文算法的跟踪精度明显优于CSK算法,偏心距误差减少至其1/5~1/3,但也因此损失了跟踪速度。虽然跟踪速度有所降低,但是仍然没有影响到视觉的流畅性,因为人眼的视觉暂留,只要帧率(FPS)大于24就感觉流畅了。另外,目标尺度(包含的像素总数)对跟踪速度也有影响,在其他变量相同的情况下,尺度越小,跟踪速度越快,反之越慢。

3 结语

本文采用不同尺度图像构建多尺度样本集,训练多尺度核相关滤波分类器,在目标检测的基础上增加了尺度估计功能,通过在线更新目标尺度形成尺度监控机制,成功实现了CSK跟踪算法的尺度自适应改进,同时提高了算法跟踪精度和鲁棒性。不足之处是算法复杂度对跟踪速度有所影响;此外,本文算法的检测器只能在局部区域进行目标检测,当目标在帧间突然发生大位移,超出检测区域,会导致跟踪失败,因此,考虑多核处理和GPU并行架构对算法的实时性进行改善,增加目标跟踪失败的补救机制,增强算法的实用性,将是下一步研究的重点。

参考文献
[1] 陈东成.基于机器学习的目标跟踪技术研究[D].北京:中国科学院大学,2015:6-7. ( CHEN D C. Research of the techniques of object tracking based on machine learning[D]. Beijing:University of the Chinese Academy of Sciences, 2015:6-7. )
[2] CHENG Y H, WANG J. A motion image detection method based on the inter-frame difference method[J]. Applied Mechanics and Materials, 2014, 490 : 1283-1286.
[3] LAI H, ZHU Y, NONG Z. An improved background subtraction approach in target detection and tracking[C]//ICMV 2013:Proceedings of the 6th International Conference on Machine Vision. Bellingham, WA:SPIE, 2013, 9067:10-13.
[4] WEDEL A, POCK T, ZACH C, et al. An improved algorithm for TV-L1 optical flow[M]//Statistical and Geometrical Approaches to Visual Motion Analysis, LNCS 5604. Berlin:Springer, 2008:23-45.
[5] GRABNER H, LEISTNER C, BISCHOF H. Semi-supervised on-line boosting for robust tracking[C]//ECCV'08:Proceedings of the 10th European Conference on Computer Vision. Berlin:Springer, 2008:234-247.
[6] BABENKO B, YANG M-H, BELONQIE S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33 (8) : 1619-1632. doi: 10.1109/TPAMI.2010.226
[7] AVIDAN S. Support vector tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26 (8) : 1064-1072. doi: 10.1109/TPAMI.2004.53
[8] SAFFARI A, LEISTNER C, SANTNER J, et al. On-line random forests[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision Workshops. Piscataway, NJ:IEEE, 2009:1393-1400.
[9] KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34 (7) : 1409-1422. doi: 10.1109/TPAMI.2011.239
[10] HENRIQUES J F, CAESIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//ECCV'12:Proceedings of the 12th European Conference on Computer Vision. Berlin:Springer, 2012:702-715.
[11] HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (3) : 583-596. doi: 10.1109/TPAMI.2014.2345390
[12] DANELLJAN M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real-time visual tracking[C]//CVPR'14:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2014:1090-1097.
[13] 李英明, 夏海宏. 双二次B-样条插值图像缩放[J]. 中国图象图形学报, 2011, 16 (10) : 1937-1943. ( LI Y M, XIA H H. Double two B-spline interpolation image scaling[J]. Journal of Image and Graphics, 2011, 16 (10) : 1937-1943. )
[14] 夏海宏.图像缩放及其GPU实现[D].杭州:浙江大学,2010:10-11. ( XIA H H. Image scaling and its GPU implementation[D]. Hangzhou:Zhejiang University, 2010:10-11. )
[15] 阮秋琦. 数字图像处理学[M]. 北京: 电子工业出版社, 2013 : 130 -135. ( RUAN Q Q. Digital Image Processing[M]. Beijing: Publishing House of Electronics Industry, 2013 : 130 -135. )
[16] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters[C]//Proceedings of the 2010 Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2010:2544-2550.
[17] SCHÖLKOPF B, SMOLA A J. Learning with kernels:support vector machines, regularization, optimization, and beyond[M]. Cambridge, MA: MIT Press, 2001 .
[18] ORON S, BAR-HILLEL A, LEVI D, et al. Locally orderless tracking[C]//CVPR'12:Proceedings of the 2012 IEEE Conference on Computer Vision an Pattern Recognition. Washington, DC:IEEE Computer Society, 2012:1940-1947.
[19] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//CVPR'05:Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2005:886-893.
[20] VAPNIK V N. Statistical learning theory[J]. Encyclopedia of the Sciences of Learning, 2010, 41 (4) : 3185-3185.