基于改进时空兴趣点特征的双人交互行为识别

引用本文

王佩瑶, 曹江涛, 姬晓飞. 基于改进时空兴趣点特征的双人交互行为识别[J]. 计算机应用, 2016, 36(10): 2875-2879.DOI: 10.11772/j.issn.1001-9081.2016.10.2875. 复制到剪切板

WANG Peiyao, CAO Jiangtao, JI Xiaofei. Two-person interaction recognition based on improved spatio-temporal interest points[J]. JOURNAL OF COMPUTER APPLICATIONS, 2016, 36(10): 2875-2879. DOI: 10.11772/j.issn.1001-9081.2016.10.2875. 复制到剪切板

基金项目

国家自然科学基金资助项目（61103123）；辽宁省高等学校优秀人才支持计划项目（LJQ2014018，LR2015034）

通信作者

姬晓飞(1978—),女,辽宁鞍山人,副教授,博士,主要研究方向:视频分析、模式识别,E-mail:jixiaofei7804@126.com

作者简介

王佩瑶(1991—),女,辽宁沈阳人,硕士研究生,主要研究方向:视频分析、模式识别;
曹江涛(1978—),男,山东郓城人,教授,博士,主要研究方向:智能控制、视频分析

文章历史

收稿日期：2016-03-14
修回日期：2016-07-04

Contents Abstract Full text Figures/Tables PDF

基于改进时空兴趣点特征的双人交互行为识别

王佩瑶¹, 曹江涛¹, 姬晓飞²

1. 辽宁石油化工大学信息与控制工程学院, 辽宁抚顺 113001 ;
2. 沈阳航空航天大学自动化学院, 沈阳 110136

收稿日期：2016-03-14 ；修回日期：2016-07-04

基金项目：国家自然科学基金资助项目（61103123）；辽宁省高等学校优秀人才支持计划项目（LJQ2014018，LR2015034）

作者简介：王佩瑶(1991—),女,辽宁沈阳人,硕士研究生,主要研究方向:视频分析、模式识别;
曹江涛(1978—),男,山东郓城人,教授,博士,主要研究方向:智能控制、视频分析

通讯联系人：姬晓飞(1978—),女,辽宁鞍山人,副教授,博士,主要研究方向:视频分析、模式识别,E-mail:jixiaofei7804@126.com

摘要: 针对实际监控视频下双人交互行为的兴趣点特征选取不理想，且聚类词典中冗余单词导致识别率不高的问题，提出一种基于改进时空兴趣点（STIP）特征的交互行为识别方法。首先，引入基于信息熵的不可跟踪性检测方法，对序列图像进行跟踪得到交互动作的前景运动区域，仅在此区域内提取时空兴趣点以提高兴趣点检测的准确性。其次采用3维尺度不变特性转换（3D-SIFT）描述子对检测得到的兴趣点进行表述，利用改进的模糊C均值聚类方法得到视觉词典，以提升词典的分布特性；在此基础上建立词袋模型，即将训练集样本向词典进行投影得到每帧图像的直方图统计特征表示。最后，采用帧帧最近邻分类方法进行双人交互动作识别。在UT-interaction数据库上进行测试，该算法得到了91.7%的正确识别率。实验结果表明，通过不可跟踪性检测得到的时空兴趣点的改进词袋算法可以较大程度提高交互行为识别的准确率，并且适用于动态背景下的双人交互行为识别。

关键词: 时空兴趣点信息熵双人交互行为识别词袋模型模糊C均值 3维尺度不变特性转换最近邻分类器

Two-person interaction recognition based on improved spatio-temporal interest points

WANG Peiyao¹, CAO Jiangtao¹, JI Xiaofei²

1. School of Information and Control Engineering, Liaoning Shihua University, Fushun Liaoning 113001, China ;
2. School of Automation, Shenyang Aerospace University, Shenyang Liaoning 110136, China

Foundation Item: This work is partially supported by the National Natural Science Foundation of China (61103123), the Program for Liaoning Excellent Talents in University (LJQ2014018,LR2015034)

Author introduction: WANG Peiyao, born in 1991, M. S. candidate. Her research interests include video analysis, pattern recognition;
CAO Jiangtao, born in 1978, Ph. D., professor. His research interests include intelligent control, video analysis

Abstract: Concerning the problem of unsatisfactory feature extraction and low recognition rate caused by redundant words in clustering dictionary in the practical monitoring video for two-person interaction recognition, a Bag Of Word (BOW) model based on improved Spatio-Temporal Interest Point (STIP) feature was proposed. First of all, foreground movement area of interaction was detected in the image sequences by the intractability method of information entropy, then the STIPs were extracted and described by 3-Dimensional Scale-Invariant Feature Transform (3D-SIFT) descriptor in detected area to improve the accuracy of the detection of interest points. Second, the BOW model was built by using the improved Fuzzy C-Means (FCM) clustering method to get the dictionary, and the representation of the training video was obtained based on dictionary projection. Finally, the nearest neighbor classification method was chosen for the two-person interaction recognition. Experimental results showed that compared with the recent STIPs feature algorithm, the improved method with intractability detection achieved 91.7% of recognition rate. The simulation results demonstrate that the intractability detection method combined with improved BOW model can greatly improve the accuracy of two-person interaction recognition, and it is suitable for dynamic background.

Key words: Spatio-Temporal Interest Point (STIP) information entropy two-person interaction recognition Bag Of Word (BOW) model Fuzzy C-Means (FCM) 3-Dimensional Scale-Invariant Feature Transform (3D-SIFT) nearest neighbor classifier

0 引言

面对当今社会所存在的众多公共安全问题以及人们对智能城市规划需求的增长,基于视频的人类交互行为识别成为计算机视觉领域中一个热点问题。双人交互行为在日常生活中广泛存在,例如握手、推搡、拥抱，以及踢打等。在监控视频中能准确提取出表示两个目标交互运动状态的特征对于行为识别尤为重要^[1]。在人类交互行为视频里,可将附带时域信息的一些角点、强度变化的极值点等视为序列图像的时空兴趣点(Spatio-Temporal Interest Point，STIP)。时空兴趣点能够用较少的信息量正确地定位视频序列中具有明显运动的区域,对环境的变化、局部的遮挡、视角的变化具有较强的鲁棒性。近十年来,时空兴趣点与视觉词袋(Bag Of Word,BOW)模型结合来表征行为的算法被广泛应用于人类行为识别领域。

基于时空兴趣点和词袋模型结合的双人交互行为识别算法一般由四个部分组成:时空兴趣点检测、特征描述、词典建立和分类器设计。时空兴趣点检测器分为稠密检测器和稀疏检测器。稠密检测器的结果涵盖视频的所有内容,Yu等^[2]采用三维V-FAST(Video FAST)角点检测方法在短时间序列内采集到精确稠密的时空兴趣点,该方法可以得到较多的兴趣点,但过多的兴趣点容易产生冗余并加大识别的计算量。而稀疏检测器可以得到视频数据的一种抽象表述,在交互行为识别中应用较为广泛。Laptev等^[3]提取3维的Harris角点作为运动视频的局部时空兴趣点,该方法得到的兴趣点非常稀疏,不适用于均匀人体运动的检测与识别。为了解决检测出的时空兴趣点分布过于稀疏的问题,Dollár等^[4]提出了结合空域二维Gaussian滤波器和时域一维Gabor滤波器的Cuboid检测方法,采用两种混合滤波器可以在时空强度发生变化时得到更密集的、高响应的时空兴趣点;但在摄像机有大幅度移动或是在动态的双人交互行为识别的情况下,很难保证兴趣点的准确检测。

采集到的时空兴趣点通过特征描述子描述成为具有表达能力的特征。时空特征描述子分为局部描述子和整体描述子。局部描述子只捕获局部或静态信息(例如颜色、姿势、纹理等),该描述子计算量低,但对兴趣点信息的描述能力有限。整体描述子捕获视频整体的或动态的信息,如文献^[5-6]采用方向梯度直方图(Histograms of Oriented Gradients,HOG)和光流直方图(Histograms of Optical Flow,HOF)结合的方式对检测到的3D兴趣点进行描述,该描述子可以较好表述局部的形状和运动。此类描述子的表述能力更强,但是通常计算复杂度很高。

词袋模型可以得到局部时空特征视觉单词的直方图统计特征,其中词典构建的正确性对于整个算法的识别准确性影响至关重要。目前常用的词典构建方法大多采用的K均值聚类算法^[7-8],且目前大部分研究的焦点放在对词典中添加时空信息表示,却忽略该方法是一种硬性划分的方式,且对初始聚类中心的设定采取随机选取的方式,容易造成不稳定的聚类效果。一些研究者提出采用随机森林的方法得到具有较强区分能力的词典构建方法^{[2, 5]},但是该算法实现过程较为复杂。

时空兴趣点与词袋模型结合得到的视频表述多采用监督式分类器进行识别,如最近邻、支持向量机(Support Vector Machine,SVM)。Yu等^[2]采用基于金字塔匹配核的分等级K均值算法实现交互动作的识别与理解；Burghouts等^[5]采用SVM对时空布局描述的双人交互行为进行分类识别；Li等^[7]采用遗传算法(Genetic Algorithm,GA)训练的随机森林(Random Forest)方法和时空匹配方法实现交互行为的识别；Gaur等^[9]采用基于时间规整和局部空间匹配的动态规划方法实现交互动作的识别与理解；Peng等^[10]采用SVM对多尺度密集轨迹提取的四种不同特征组合进行识别,得到了较为满意的结果。总的来说,识别算法的准确性依赖于所选用的匹配算法。针对不同的特征表示,需要构造特定的匹配算法。但通常匹配方法比较复杂,且若面对大量高维的特征向量,都存在特征表述复杂、分类器响应效率较低的问题。

综上分析,基于时空兴趣点现有的典型识别算法存在以下问题:1)检测时空兴趣点的精确性不高;2)构建的时空兴趣点描述子维数较高,影响计算效率;3)对于时空兴趣点的提取,通常的方法是针对整段视频进行的,该特征缺失时域信息,且涵盖的信息量较少,因而得到的识别率不高;4)词袋模型中的聚类算法大部分采用的K均值的方法,此算法初始聚类中心随机选取,导致聚类的分布性欠佳,对识别率影响较大。

针对时空兴趣点与词袋模型结合存在的问题,提出了一种新的时空兴趣点检测及交互特征表示及识别方法。算法的整体框图如图 1所示。

图 1 算法整体框图

处理流程如下:1)对输入的训练动作视频采用信息熵的不可跟踪性进行运动目标跟踪,在该区域内进行兴趣点的检测,提高检测的精度。2)对检测得到的比较准确的兴趣点采用3维尺度不变特性转换(3-Dimensional Scale-Invariant Feature Transform,3D-SIFT)描述子进行描述。在此基础上采用改进的模糊C均值(Fuzzy C-Means,FCM)聚类方法构建具有较强区分性的词典,以此来抑制由于样本分布不好所导致的词典构建不均匀的问题。3)引入文献^[11]中采用的视频段词袋特征对视频中的每帧图像进行表示。即分别计算相邻五帧中检测出的兴趣点的特征描述子与词典中单词的欧氏距离,利用最小距离判据对视频段内的描述子进行归类,统计该视频段内单词发生的频率,形成当前帧的兴趣点视频段词袋直方图统计。通过此算法增加词袋模型对于行为表示的信息量。4)最后在行为识别层面,提出一种等间距抽取的最近邻统计识别方法,该方法可以解决3D-SIFT描述子提取速度过慢对算法实时性的影响。

1 运动区域检测

将时空兴趣点作为特征最大的一个挑战就是在动态背景下,兴趣点的检测容易受外界噪声的干扰。具体问题体现在:1)采集到的兴趣点个数较少,不能包含前景的所有重要信息(见图 2(a));2)在人的运动速度过快的情况下容易保留错误的历史信息(见图 2(b));3)当背景出现非目标的运动,容易将其错认为视频中的关键点而被检测出来(见图 2(c))。对于兴趣点的检测可集中在两个人的人体剪影区域连通时以及连通前后一段时间的视频序列中选取^[12]。但当过多的冗余信息出现在此区域,就会影响时空兴趣点的选取质量且缺失全局信息。本文主要针对在动态背景下,采用基于信息熵的不可跟踪性的方法对运动区域进行跟踪检测,并在此区域内提取兴趣点,从而获得信息量更加完整的时空兴趣点。

图 2 不理想的时空兴趣点分布

1.1 信息熵的不可跟踪性

信息熵可以反映图像中平均信息量的多少。当一个系统变得愈发不稳定或者信息变化量越大时,熵就会增加,使得整个系统的行为变得难以预测。

本文采用了由Gong等^[13]提出的基于信息熵的不可跟踪性计算的运动分析算法。根据定义,不可跟踪性是将信息熵的后验概率试图最大化的过程,它可以作为衡量视频复杂度的标准,本文采用此方法描述双人交互行为,可以反映出在跟踪图像过程中兴趣点提取的不确定性和难度,进而优化兴趣点的选取。算法包含以下两个步骤:1)首先通过计算视频图像中像素点的不可跟踪量值,来推理得出局部的不确定性;2)在时间和空间上统计各个像素点的不可跟踪量,将其绘制成直方图对整个视频进行表示。

此算法运动分析的目标是通过最大化后验概率来估计出兴趣点的选取位置E,由Bayesian观点看来,

${{E}^{*}}=\underset{E}{\mathop{\arg \max }}\,p(E|F[t])$

(1)

其中:E^*是E的最优解;F(ω)表示在ω时刻的图像,所以F[t]=(F(1),F(2),…,F(t))表示在[1,t]时间段内的一段视频。然而此公式中缺少交互行为运动信息的不确定性推理,测量信息熵的不确定性的通常方法是通过信息熵的后验概率来衡量,即

$I\{E|F[t]\}=-\sum\limits_{E}^{{}}{p(E|F[t])}\log p(E|F[t])$

(2)

其中:E=g是时空兴趣点的运动矢量;F和F^*是连续两帧图像,那么不可跟踪性为I{g|F,F^*}。

1.2 不可跟踪性的阈值判定

信息熵直观上可以理解为对像素点的不确定性或不可跟踪性的性能评估,通过计算得出视频序列图像的每个像素点的不可跟踪量。通过分析发现,不可跟踪量的统计直方图可分解为三个区间,对应三个不同的运动形式:1)低不可跟踪性区间,这部分对应于图像中的特征点或结构化的纹理区域,可以高精度跟踪;2)高不可跟踪性区间,这部分对应于图像中没有明显结构的区域(例如平地或非常稠密的地方);3)过渡不可跟踪性区间,其中包含纹理区域不那么可分的模糊区域。本文设置一个理想的阈值,判定是否应该跟踪该区域。若数值大于阈值,则不可跟踪性就越大,舍弃该区域,比如背景区域;若数值小于阈值,则不可跟踪性就越小,即可以跟踪该区域,比如前景的边缘区域。为了抑制图像尺度变化以及光照等外界噪声对像素点上不可跟踪性的判断,本文采用自适应方法对信息熵的不可跟踪性阈值。进行设定,确保得到最佳的识别效果。

2 时空兴趣点的提取及描述

采用兴趣点来描述双人交互动作可以定位到视频序列中具有明显运动的区域。Dollár等^[4]提出的在空域采用二维Gaussian滤波器和在时域采用一维Gabor滤波器的算法,能够提取满意的时空兴趣点且算法相对简单,所以在本文采取此方法检测时空兴趣点。针对经过不可跟踪性检测与未经过检测这两种算法，提取时空兴趣点的效果比较如图 3所示。由图 3可以看出,与不可跟踪性检测结合可以得到更加准确的时空兴趣点。

图 3 不同算法提取时空兴趣点的效果比较

经过不可跟踪性检测的时空兴趣点最终效果如图 3所示。由图 3可以看出,与不可跟踪性检测结合可以得到更加准确的时空兴趣点。

本文采用3D-SIFT描述子对双人交互行为的时空兴趣点进行描述。3D-SIFT是由Scovanner等^[14]将2维的SIFT描述算子扩展到时间维,提出一种具有时空特性的3D-SIFT描述算子。3D-SIFT特征具有很强的匹配能力和目标识别能力,它对图像的尺度、光照、旋转变化以及噪声等都表现出较强的鲁棒性。为了增强3D-SIFT描述子的鲁棒性,本文在视频序列图像每相邻两帧图像之间建立2×2×2维的视频子块。在每个视频子块计算兴趣点邻域内每个像素的时空梯度方向直方图。为了避免特征出现维数过高或者信息匮乏的两极化现象,本文采用32面的多面球体,即32个梯度方向来进行描述,这样每个子立方体中提取的特征维数为32维,每个时空兴趣点都可以由256维(2×2×2×32)方向梯度直方图进行表示。

3 改进的词袋算法 3.1 改进的FCM聚类算法

FCM通过优化目标函数,得到每个样本点对所有中心的隶属度,从而决定样本点的隶属达到自动对样本数据进行分类的目的^[15]。FCM聚类方法最明显的优势在于避免K均值算法的硬性划分,以一种柔性的模糊划分可以处理很难明显分类的变量。但是,FCM算法中随机选取初始聚类中心的方法通常不能很好地反映图像特征点的分布特性,从而加大聚类次数和运算量,造成不稳定的聚类效果。为了更好地表达每类动作的运动属性,以及避免词典中可能存在重复冗余单词的情况,本文将距离寻优思想与FCM算法结合。通过计算样本分布的相互距离来优化初始聚类中心,克服了FCM算法随机选取初始聚类中心这一不足。改进FCM算法具体步骤如下:

步骤1 设定聚类数k、容许误差δ、加权指数m(m>1)和循环次数r。

步骤2 在3D-SIFT特征向量空间X=[x₁,x₂,…,x_n]里,任取一个向量作为第一个聚类中心c₁。根据式(3)计算这一中心到其余各个向量最远的距离,并且标记距离c₁最远的那个向量,将其定义为第2类的聚类中心c₂。

$\max :{{d}_{ij}}=||{{c}_{i}}-{{x}_{j}}||,(i=2,3,...,c)$

(3)

第3类的聚类中心为距离所有现有聚类中心均最远的那个向量,即利用式(3)求解所有特征向量到已确定聚类中心c₁、c₂的距离l₁和l₂,并要求l₁和l₂不小于阈值δ,选取l₁与l₂距离之和达到最大值的特征向量作为c₃。以此类推,直到取到第k个聚类中心,将C=[c₁,c₂,…,c_k] 聚类中心作为初始化聚类中心。

步骤3 满足约束条件式(4)的情况下,按照式(5)求解聚类目标函数J的极小值最优化问题。

$\sum\limits_{i=1}^{c}{{{u}_{i}}({{x}_{j}})=1,j=1,2,...,n}$

(4)

$J=\sum\limits_{i=1}^{c}{\sum\limits_{j=1}^{n}{{{({{u}_{i}}({{x}_{j}}))}^{b}}}}{{d}_{ij}}^{2}$

(5)

其中：b是一个可以控制聚类结果的聚类模糊程度的常数,且b>1。令J对u_i(x_j)的偏导数为0,得到必要条件公式:

${{u}_{i}}({{x}_{j}})=\frac{{{(1/||{{x}_{j}}-{{c}_{i}}|{{|}^{2}})}^{1/(b-1)}}}{\sum\limits_{i=1}^{c}{{{(1/||{{x}_{j}}-{{c}_{i}}|{{|}^{2}})}^{1/(b-1)}}}}$

(6)

其中：u_i(x_j)代表第j(j=1,2,…,n)个样本对第i(i=1,2,…,k)类的隶属度函数。将当前的聚类中心根据式(6)计算隶属度函数。

步骤4 令J对c_i的偏导数为0,得到到必要条件:

${{c}_{i}}=\frac{\sum\limits_{j=1}^{n}{{{({{u}_{i}}({{\mathbf{x}}_{\mathbf{j}}}))}^{b}}{{\mathbf{x}}_{\mathbf{i}}}}}{\sum\limits_{j=1}^{n}{{{({{u}_{i}}({{\mathbf{x}}_{\mathbf{j}}}))}^{b}}}},i=1,2,...,c$

(7)

将当前的隶属度函数按式(7)更新各类聚类中心。

步骤5 利用式(8)计算各个像素点的误差e,如果e<δ,寻优结束;否则将循环次数r加1,循环执行步骤3。

$e = \sum\limits_{i = 1}^c {||{u_i}} ({x_j})(r + 1) - {u_i}({x_j})r|{|^2}$

(8)

3.2 基于改进FCM的词袋模型

词袋模型具有原理简单易懂、运行结果有效的特点,因而被广泛应用于图像处理领域。本文采用3.1节所介绍的改进的FCM聚类方法对3D-SIFT描述子进行聚类,将得到的聚类中心定义为视觉单词,所有的视觉单词结合到一起构成了视觉词典。将每段视频序列图像的所有帧图像采用“滑窗法”,每5帧图像建立一个视频小块,统计每个视频小块上的时空兴趣点,并将其投影到视觉词典上,最终生成统计直方图形式。通过此算法增加词袋模型对于交互行为表示的信息量。词袋算法原理如图 4所示。

图 4 词袋算法原理示意图

4 交互行为识别

本文提出一种针对训练样本库进行等间距抽取获得样本集的算法,在此基础上进行帧帧最近邻的识别方法。原因是:1)经过3D-SIFT描述的时空特征维数较大,导致系统的识别时间过长,对数据库进行等间距抽样,可以减少行为识别的计算时间;2)视频序列图像经过分帧得到序列图像,其相邻帧图像变化甚微,通过等间距抽取后得到的样本集能更好地体现出变化明显的目标运动区域;3)之所以没有在实验初期进行样本等间距抽取，是由于经过3D-SIFT描述子描述后的每帧兴趣点本身已涵盖相邻帧之间的关联信息,能够最大限度地涵盖行为的整体特性。

5 实验结果与分析

本次实验采用的数据均来自UT-interaction数据库,该数据库现已被广泛用于动态的双人交互行为识别领域里。该数据库包含6类连续执行的人类交互动作视频,分别是握手、拥抱、踢、指点、拳击和推,如图 5所示。每类动作下包含10个动作视频。整个数据库由15个人在真实的监控场景下(包括动态背景、混乱场景、相机抖动或缩放、不同着装等噪声影响)完成所有的双人交互动作。本次实验采取留一交叉验证法对数据库进行测试实验。实验环境均在主频2.94GHz,内存4GB,32位Windows 7操作系统下Matlab 2012软件平台上完成的。

图 5 UT-interaction数据库示意图

5.1 参数设置

通过分析算法的执行过程,主要是样本集等间距采样数s和改进的FCM算法聚类中心数k的选择两个参数影响识别结果。在不同参数下进行实验,以最优识别率为标准选择参数。

设定聚类数k分别为5、10、15、20、25、30,等间距采样数s在不同的取值情况下得到的识别率如图 6所示。从图 6可看出：确定最优参数为聚类中心数k=15,等间距采样数s=300,此时平均识别率达到最大值。在计算效率方面,实验中单帧图像平均识别所用时间为0.284s,这表明该算法基本上可以实现实时处理。

图 6 不同等间距采样数和不同聚类数的平均识别率

5.2 实验结果与其他方法的比较

利用5.1节得到的最佳参数设定实验中变量,即聚类中心数k=15,等间距采样数s=300。从数据库中选取涵盖6种动作总计60段视频图像进行实验。最佳参数时,6类双人交互行为的识别率可达到91.7%,混淆矩阵如图 7所示。

图 7 最佳参数下不同双人交互行为识别率的混淆矩阵

将本文算法与近期基于UT-interaction数据库的其他基于时空兴趣点特征表示算法进行比较,比较结果见表 1。本文引入信息熵的不可跟踪性检测算法大大提高兴趣点检测的准确性,且改进了词袋模型及其交互动作的表示方法,有效地提高了行为识别的准确率。尽管本文的识别率与文献^[7](采用多种特征融合的时空兴趣点方法)的识别结果持平,但是文献^[7]算法需要提取STIP、运动上下文(Motion Context,MC)等多种特征且需要在其基础上构建STIP事件序列(STIP Occurrence Sequence),算法特征提取的复杂度较高,并且其采用GA训练的随机森林方法以及时空匹配方法实现交互行为的识别,该算法需要大量的训练时间,而本文采用单一时空兴趣点作为特征得到的识别率,相对于文献^[7]算法计算复杂度大大降低。此外本文识别准确率大大高于文献^[17]采用KLT跟踪和CP(Clique Partitioning)结合的算法监测并提取局部特征描述子的算法,且明显高于同为采用时空兴趣点特征的文献^{[2, 6]}的交互行为识别方法及文献^[16]同时采用全局和局部特征表示的识别方法。实验验证了所提出方法在双人交互行为研究中的优越性。

表 1 不同算法的识别率结果比较

6 结语

本文提出了一种新的针对动态背景下的双人交互行为识别方法。算法设计中采用信息熵的不可跟踪性检测约束时空兴趣点的选取,该方法相对于之前的时空兴趣点方法优势在于能在提取时空兴趣点之前先跟踪确定目标运动区域,在该区域采集到的时空兴趣点可以携带更多图像中的有用信息。构建改进FCM聚类算法的词袋模型能够很好地表示目标的整体和局部特性。交互行为识别采用结合等间距抽取和1NN的识别方法,解决了3D-SIFT描述子识别速度过慢的问题。实验结果表明了该方法的有效性。后续工作会考虑兴趣点特征描述子的进一步研究,在提高识别速度的同时来进一步提高识别率。

参考文献

[1]	YU G, YUAN J, LIU Z. Predicting human activities using spatio-temporal structure of interest points[C]//Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM, 2012: 1049-1052. (0)
[2]	YU T H, KIM T K, CIPOLLA R. Real-time action recognition by spatiotemporal semantic and structural forests[C]//BMVC 2010: Proceedings of the 21st British Machine Vision Conference. Bristol: BMVA, 2010: 1-12. (0)
[3]	LAPTEV I, LINDEBERG T. Space-time interest points [C]//Proceedings of the 9th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2003:432-439. (0)
[4]	DOLLÁR P, RABAUD V, COTTRELL G, et al. Behavior recognition via sparse spatio-temporal features[C]//Proceedings of the 2005 IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance. Piscataway, NJ: IEEE, 2005: 65-72. (0)
[5]	BURGHOUTS G J, SCHUTTE K. Spatio-temporal layout of human actions for improved bag-of-words action detection[J]. Pattern Recognition Letters, 2013, 34 (15) : 1861-1869. doi: 10.1016/j.patrec.2013.01.024 (0)
[6]	ZHANG X, CUI J, TIAN L, et al. Local spatio-temporal feature based voting framework for complex human activity detection and localization[C]//Proceedings of the First Asian Conference on Pattern Recognition. Piscataway, NJ: IEEE, 2011: 12-16. (0)
[7]	LI N, CHENG X, GUO H, et al. A hybrid method for human interaction recognition using spatio-temporal interest points [C]//ICPR 2014: Proceedings of the 22nd International Conference on Pattern Recognition. Piscataway, NJ: IEEE, 2014: 2513-2518. (0)
[8]	韩磊, 李君峰, 贾云得. 基于时空单词的两人交互行为识别方法[J]. 计算机学报, 2010, 33 (4) : 776-784. ( HAN L, LI J F, JIA Y D. Human interaction recognition using spatio-temporal words[J]. Chinese Journal of Computers, 2010, 33 (4) : 776-784. doi: 10.3724/SP.J.1016.2010.00776 ) (0)
[9]	GAUR U, ZHU Y, SONG B, et al. A "string of feature graphs" model for recognition of complex activities in natural videos[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2011: 2595-2602. (0)
[10]	PENG X, PENG Q, QIAO Y, et al. Exploring dense trajectory feature and encoding methods for human interaction recognition[C]//ICIMCS 2013: Proceedings of the Fifth International Conference on Internet Multimedia Computing and Service. Piscataway, NJ: IEEE, 2013: 23-27. (0)
[11]	王策, 姬晓飞, 李一波. 一种简便的视角无关动作识别方法[J]. 智能系统学报, 2014, 9 (5) : 577-583. ( WANG C, JI X F, LI Y B. Study on a simple view-invariant action recognition method[J]. CAAI Transactions on Intelligent Systems, 2014, 9 (5) : 577-583. ) (0)
[12]	王世刚, 孙爱朦, 赵文婷, 等. 基于时空兴趣点的单人行为及交互行为识别[J]. 吉林大学学报(工学版), 2015, 45 (1) : 304-308. ( WANG S G, SUN A M, ZHAO W T, et al. Single and interactive human behavior recognition algorithm based on spatio-temporal interest point[J]. Journal of Jilin University (Engineering and Technology Edition), 2015, 45 (1) : 304-308. ) (0)
[13]	KONG Y, LIANG W, DONG Z Y, et al. Recognising human interaction from videos by a discriminative model[J]. IET Computer Vision, 2014, 8 (4) : 277-286. doi: 10.1049/iet-cvi.2013.0042 (0)
[14]	PATRON-PEREZ A, MARSZALEK M, REID I, et al. Structured learning of human interactions in TV shows[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34 (12) : 2441-2453. doi: 10.1109/TPAMI.2012.24 (0)
[15]	GONG H, ZHU S C. Intrackability: characterizing video statistics and pursuing video representations[J]. International Journal of Computer Vision, 2012, 97 (3) : 255-275. doi: 10.1007/s11263-011-0486-3 (0)
[16]	SCOVANNER P, ALI S, SHAH M. A 3-dimensional SIFT descriptor and its application to action recognition[C]//Proceedings of the 15th International Conference on Multimedia. New York: ACM, 2007: 357-360. (0)
[17]	朱旭锋, 马彩文, 刘波. 采用改进词袋模型的空中目标自动分类[J]. 红外与激光工程, 2012, 41 (5) : 1384-1388. ( ZHU X F, MA C W, LIU B. Aerial target automatic classification based on improving bag of words model[J]. Infrared and Laser Engineering, 2012, 41 (5) : 1384-1388. ) (0)
[18]	KONG Y, LIANG W, DONG Z Y, et al. Recognising human interaction from videos by a discriminative model[J]. IET Computer Vision, 2014, 8 (4) : 277-286. doi: 10.1049/iet-cvi.2013.0042 (0)
[19]	PATRON-PEREZ A, MARSZALEK M, REID I, et al. Structured learning of human interactions in TV shows[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34 (12) : 2441-2453. doi: 10.1109/TPAMI.2012.24 (0)