基于草图局部几何不变矩的图像检索方法

引用本文

鲍振华, 康宝生, 张雷, 张婧. 基于草图局部几何不变矩的图像检索方法[J]. 计算机应用, 2017, 37(6): 1753-1758.DOI: 10.11772/j.issn.1001-9081.2017.06.1753. 复制到剪切板

BAO Zhenhua, KANG Baosheng, ZHANG Lei, ZHANG Jing. Sketch-based image retrieval method using local geometry moment invariant[J]. Journal of Computer Applications, 2017, 37(6): 1753-1758. DOI: 10.11772/j.issn.1001-9081.2017.06.1753. 复制到剪切板

基金项目

国家自然科学基金资助项目（61272286）；陕西省自然科学基础研究计划项目（2014JM8346）

通信作者

康宝生, bskang@163.com

作者简介

鲍振华(1992-), 男, 山西运城人, 硕士研究生, 主要研究方向:图像识别和检索;
康宝生(1961-), 男, 陕西咸阳人, 教授, 博士, 主要研究方向:图形图像处理;
张雷(1980-)男, 山西临猗人, 讲师, 博士, 主要研究方向:图形图像处理;
张婧(1988-)女, 陕西西安人, 博士研究生, 主要研究方向:三维模型检索

文章历史

收稿日期：2016-12-09
修回日期：2017-02-16

Contents Abstract Full text Figures/Tables PDF

基于草图局部几何不变矩的图像检索方法

鲍振华¹, 康宝生¹, 张雷^1,2, 张婧¹

1. 西北大学信息科学与技术学院, 西安 710127;
2. 运城学院公共计算机教学部, 山西运城 044000

收稿日期：2016-12-09；修回日期：2017-02-16

基金项目：国家自然科学基金资助项目（61272286）；陕西省自然科学基础研究计划项目（2014JM8346）

作者简介：鲍振华(1992-), 男, 山西运城人, 硕士研究生, 主要研究方向:图像识别和检索;
康宝生(1961-), 男, 陕西咸阳人, 教授, 博士, 主要研究方向:图形图像处理;
张雷(1980-)男, 山西临猗人, 讲师, 博士, 主要研究方向:图形图像处理;
张婧(1988-)女, 陕西西安人, 博士研究生, 主要研究方向:三维模型检索

通信作者：康宝生, bskang@163.com

摘要: 利用草图进行图像检索的难点在于对不同尺度、位置、旋转及形变图像的有效检索。为了更准确地识别并检索不同尺度、位置和旋转的图像，提出一种基于草图局部几何不变矩的图像检索方法（SBIRULGMI）。首先，利用图像的几何特征分别确定各图像的坐标系；然后，在生成的坐标系中对图像进行平均分块并计算各块的几何不变矩作为特征向量；接着，用改进的欧氏距离计算目标图像与数据库图像的相似度；最后，采用蚁群（ACO）算法对按照相似度排序后的检索结果进行优化。所提方法在MPEG-7 shape1 part B图像数据库的检索识别准确率比形状上下文（SC）、边缘分布直方图（EOH）、局部线性高波特征（GALIF）及MindFinder方法平均提高了17个百分点。实验结果表明该方法对不同平移、缩放和翻转的图像有较好的识别效果，对图像一定程度的旋转和形变具有更好的鲁棒性。

关键词: 图像分块几何不变矩草图检索蚁群算法

Sketch-based image retrieval method using local geometry moment invariant

BAO Zhenhua¹, KANG Baosheng¹, ZHANG Lei^1,2, ZHANG Jing¹

1. College of Information Science and Technology, Northwest University, Xi'an Shaanxi 710127, China;
2. College of Public Computer Teaching, Yuncheng University, Yuncheng Shanxi 044000, China

Foundation Item: This work is partially supported by the National Natural Science Foundation of China (61272286), the Natural Science Basic Research Plan in Shaanxi Province (2014JM8346)

Author introduction: BAO Zhenhua, born in 1992, M. S. candidate. His research interests include image recognition and retrieval;
KANG Baosheng, born in 1961, Ph. D., professor. His research interests include graphics and image processing;
ZHANG Lei, born in 1980, Ph. D, lecturer. His research interests include graphics and image processing;
ZHANF Jing, born in 1988, Ph. D. candidate. His research interests include 3D model retrieval

Abstract: The difficulty in sketch-based image retrieval is the effective recognition of images with different scales, positions, rotations and deformations. In order to identify and retrieve images of different scales, positions and rotations more accurately, a Sketch-Based Image Retrieval method Using Local Geometry Moment Invariant (SBIRULGMI) was proposed. Firstly, the geometric characteristics of image were used to determine the coordinate system of image. Secondly, the geometry moment invariant of image blocks which were divided averagely based on the generated coordinate system was calculated to form a eigenvector. Then, the similarities between query sketch and images in database were calculated based on Euclidean distance. Finally, the retrieval results were obtained from the similarity ranking and optimized according to Ant Colony Optimization (ACO). Compared with Shape Context (SC), Edge Orientation Histogram (EOH), GAbor Local lIne-based Feature (GALIF) and MindFinder, the retrieval accuracy of the proposed method in image database of MPEG-7 shape1 part B was increased by 17 percentage points on average. The experimental results show that the proposed method not only has a better recognition effect on the images after translation, scaling and flipping transformation, but also has better robustness to a certain degree of rotation and deformation.

Key words: image block geometry moment invariant sketch retrieval Ant Colony Optimization (ACO) algorithm

0 引言

作为人类社会最常用的信息载体，图像数据以其丰富的信息含量和快捷有效的表达方式已成为人们日常生活中必不可少的组成部分。如何从海量的图像数据中找到想要的结果一直是研究人员所关注的重点。20世纪90年代，Kato等^[1]提出的基于内容的图像检索^[2]技术在以图找图方面取得了突破性的进展。然而，由于需要用户提供准确的图片来进行检索，该方法极大地限制了用户输入的自由性。近年来，随着可穿戴设备以及触屏设备的广泛使用，基于手绘草图的图像检索(Sketch-Based Image Retrieval, SBIR)技术得到了研究人员的广泛重视。

草图检索的重点在于手绘草图的识别与判断，现有的草图检索系统主要从轮廓特征和区域特征两个方面进行草图特征描述。Eitz等^[3-4]采用局部线性高波特征(GAbor Local lIne-based Feature, GALIF)作为局部描述符，利用词袋模型方法进行检索；Cao等^[5-6]使用Chamfer匹配法计算草图的相似度并采用倒排索引方法进行检索，这种方法检索和匹配速度快，但对于仿射变换的鲁棒性较差，无法找到大小和位置相差较大的图片。Bhattacharjee等^[7]、Hu等^[8]通过提取图像块的特征向量来识别整体图像，但分块方法单一，对图像中物体位置未作考虑。

针对草图特征提取中对形变的鲁棒性差，识别准确率低的问题，本文首先根据图像的形心、长轴及最小长方形包围盒对图像进行定位，保证对不同位置、方向和大小图像的分块不出现偏移；然后对图像进行分块，以具有良好旋转、平移及伸缩不变性的几何不变矩作为各块及整体图像的特征描述符；最后采用蚁群算法对检索结果进行优化。本文所提方法称为基于草图局部几何不变矩的图像检索方法(Sketch-based Image Retrieval method Using Local Geometry Moment Invariant, SBIRULGMI)。与EItz等^[9]的形状上下文(Shape Context, SC)、边缘分布直方图(Edge Orientation Histogram, EOH)以及文献[3]方法、文献[5]方法相比，SBIRULGMI在MPEG-7 shape1 part B图像数据库的检索识别准确率为49.35%，平均提高了17个百分点。

1 不变矩理论

矩用来表征图像区域的几何特征，具有良好的旋转、平移、尺度不变性，所有又称为不变矩。最早的几何矩由Hu^[10]提出，数字图像f (x, y)的(p+q)阶矩定义为:

${m_{pq}} = \sum\limits_{x = 1}^M {\sum\limits_{y = 1}^N {{x^p}{y^q}f\left( {x, y} \right)} } $

(1)

其中：p为图像x方向的阶数；q为图像y方向的阶数。

将矩特征量m_pq进行位置归一化得到中心矩：

${\mu _{pq}} = \sum\limits_{x = 1}^M {\sum\limits_{y = 1}^N {{{\left( {x - {x_0}} \right)}^p}{{\left( {y - {y_0}} \right)}^q}f\left( {x, y} \right)} } $

(2)

其中：μ_pq(p, q =0, 1, …)表示图像f (x, y)的平移不变量；M、N为图像的行数和列数；(x₀, y₀)为形心坐标。(x₀, y₀)的计算公式为：

$\left\{ \begin{array}{l} {x_0} = \sum\limits_{x = 1}^M {\sum\limits_{y = 1}^N {xf\left( {x, y} \right)} } \\ {y_0} = \sum\limits_{x = 1}^M {\sum\limits_{y = 1}^N {yf\left( {x, y} \right)} } \end{array} \right.$

(3)

再将μ_pq数值归一化得到归一化中心矩：

${y_{pq}} = {\mu _{pq}}/\mu _{00}^r$

(4)

其中：y_pq表示图像f (x, y)的平移和尺度不变量；r=(p+q+2) /2(p, q =0, 1, …)。

为了保持表示图像时的旋转、平移和尺度不变性，Hu^[10]利用代数不变矩理论构造了七个不变矩。由于几何矩是把二维连续函数f (x, y)投影到xⁿy^m上，而整个基本集{xⁿ, y^m}是完备的。张伟等^[11]利用该原理得到了7个Hu不变矩的信息冗余性，并指出第6、7个不变矩与前5个存在信息冗余。本文在使用I₁、I₂、I₃、I₄、I₅五个Hu不变矩的同时，用文献[11]提出的不变矩多项式空间基表示定理补充了I₆、I₇两个没有信息冗余的四阶不变矩。具体如下：

$\left\{ \begin{array}{l} {I_1} = {y_{20}} + {y_{02}}\\ {I_2} = {\left( {{y_{20}} - {y_{02}}} \right)^2} + 4y_{11}^2\\ {I_3} = {\left( {{y_{{\rm{3}}0}} - {\rm{3}}{y_{{\rm{1}}2}}} \right)^{\rm{2}}}{\rm{ + }}{\left( {{\rm{3}}{y_{21}} - {y_{03}}} \right)^2}\\ {I_4} = {\left( {{y_{{\rm{3}}0}} + {y_{{\rm{1}}2}}} \right)^{\rm{2}}}{\rm{ + }}{\left( {{y_{21}} + {y_{03}}} \right)^2}\\ {I_5}{\rm{ = }}\left( {{y_{{\rm{3}}0}} - 3{y_{{\rm{1}}2}}} \right)\left( {{y_{{\rm{3}}0}} + {y_{{\rm{1}}2}}} \right){\rm{*}}\\ \begin{array}{*{20}{c}} {}&{} \end{array}{\rm{ }}\left[ {{{\left( {{y_{{\rm{3}}0}} + {y_{{\rm{1}}2}}} \right)}^2} - 3{{\left( {{y_{21}} + {y_{03}}} \right)}^2}} \right]{\rm{ + }}\\ \begin{array}{*{20}{c}} {}&{} \end{array}\left( {{\rm{3}}{y_{21}} - {y_{03}}} \right)\left( {{y_{21}} + {y_{03}}} \right){\rm{*}}\\ \begin{array}{*{20}{c}} {}&{} \end{array}\left[ {3{{\left( {{y_{30}} + {y_{12}}} \right)}^2} - {{\left( {{y_{21}} + {y_{03}}} \right)}^2}} \right]\\ {I_6} = {\left( {{y_{04}} + {y_{40}} - 6{y_{22}}} \right)^{\rm{2}}}{\rm{ + 16}}{\left( {{y_{31}} - {y_{13}}} \right)^2}\\ {I_7} = \left( {{y_{04}} + {y_{40}} - 6{y_{22}}} \right)\left[ {{{\left( {{y_{20}} - {y_{02}}} \right)}^2} - 4y_{11}^2} \right] + \\ \begin{array}{*{20}{c}} {}&{} \end{array}16{y_{11}}\left( {{y_{31}} - {y_{13}}} \right)\left( {{y_{20}} - {y_{02}}} \right) \end{array} \right.$

(5)

其中：y_pq(p, q =0, 1, …)为该图像的各归一化中心矩。

几何不变矩在连续图像条件下具有良好的旋转、平移和尺度不变性，但单个几何矩数值范围小，在大规模图像检索时重复率较高。为此，本文对图像进行分块，计算各块及整体的七阶几何不变矩作为特征向量并采用改进的欧氏距离进行相似性匹配。

2 特征提取 2.1 图形分块 2.1.1 确定坐标系

为保证图形检索时的旋转不变性，本文利用各草图的形心、长轴及最小长方形包围盒三个几何特征分别确定坐标系，根据图像的坐标系对草图进行分块。

首先，由式(3) 计算草图(参见图 1)的形心坐标(x₀, y₀)作为坐标系原点坐标。

图 1 不同草图分块结果 Figure 1 Blocked results of different sketches

然后，以(x₀, y₀)为坐标系原点建立坐标系，具体步骤如下：

步骤1 过坐标原点找到图形的长轴位置。

步骤2 以长轴方向为初始正方向建立坐标系，记录初始的草图长方形包围盒的面积s₀。

步骤3 将坐标系顺时针旋转a°，记此时草图的长方形包围盒面积为s₁。如果：

${\left( {{s_0} - s} \right)_1}/{s_1} \ge \varepsilon $

(6)

记录s₀=s₁，并记录此时的坐标系方向。式(6) 中，阈值ε表示坐标系定位的精确程度，ε越小，坐标系定位得越精确，但计算越复杂，定位时间越长。综合考虑，在实验的基础上，本文设ε为0.1。

步骤4 重复步骤3直到na°>360°(n=0, 1, …)。

2.1.2 分块

根据确定好的坐标系，从Y轴正方向开始，以45°为一个间隔顺时针旋转从原点向外作射线将图形分为8个部分，依次记为：1，2，…，8，如图 1所示。

2.2 计算特征向量

以式(5) 的计算方法提取特征向量，对于一幅草图图像，分别计算其8个图像块及整体图像共9个图像块的几何不变矩构成草图图像的特征向量，待查询草图图像Q的特征向量V_Q表示为：

${\mathit{\boldsymbol{V}}_Q} = ({\mathit{\boldsymbol{V}}_1}, {\mathit{\boldsymbol{V}}_2}, {\mathit{\boldsymbol{V}}_3}, {\mathit{\boldsymbol{V}}_4}, {\mathit{\boldsymbol{V}}_5}, {\mathit{\boldsymbol{V}}_6}, {\mathit{\boldsymbol{V}}_7})$

(7)

其中：V₁、V₂、V₃、V₄、V₅、V₆、V₇分别表示各图像块的一到七阶几何不变矩特征向量，每一维的特征向量包含9个元素，分别为8个分块后的图像块及整体图像。各维特征计算如下：

${\mathit{\boldsymbol{V}}_i} = ({I_{i1}}, {I_{i2}}, {I_{i3}}, {I_{i4}}, {I_{i5}}, {I_{i6}}, {I_{i7}}, {I_{i8}}, {I_{i9}})$

(8)

其中：V_i表示第i阶几何不变矩特征向量；I_i1、I_i2、I_i3、I_i4、I_i5、I_i6、I_i7、I_i8分别表示分块后的八个图像块ψ₁、ψ₂、ψ₃、ψ₄、ψ₅、ψ₆、ψ₇、ψ₈的第i阶几何不变矩；I_i9表示整体图像的第i阶几何不变矩，使用式(5) 计算。

3 匹配检索 3.1 输入草图

实验中采用256×256大小的画布，要求用户在绘制图形时尽可能地简便，省去图形内部的复杂纹理。对用户输入的图形，采用钟龙招^[12]提出的草图预处理方法，分别对输入草图进行冗余比画消除、简化聚点和间隙闭合处理，减轻用户输入的随意性对检索结果的干扰。

3.2 数据库组成

几何不变矩的数值简单，检索速度快，但面对大规模图像检索时重复率较高。在构建数据库时，根据七阶不变矩不同构造方法分别建立七个数据库D₁、D₂、D₃、D₄、D₅、D₆、D₇，D_i中每一行存储图像数据库中一幅图像的ψ₁、ψ₂、ψ₃、ψ₄、ψ₅、ψ₆、ψ₇、ψ₈、ψ₉九个图像块的第i阶几何不变矩V_ij(j=1, 2, …, 9)。

3.3 匹配 3.3.1 相似性度量

对经过预处理的手绘草图按照2.1节方法分块，并用式(8) 提取第i阶几何不变矩作为查询向量V_Qi。计算其与第i个数据库中某幅图像img的特征向量V_Di的欧氏距离：

$d\left( {{\mathit{\boldsymbol{V}}_{Qi}}, {\mathit{\boldsymbol{V}}_{Di}}} \right) = \sqrt {\sum\limits_{k = 1}^9 {{\gamma _k}{{\left( {{I_{Qk}} - {I_{Dk}}} \right)}^{\rm{2}}}} } $

(9)

由于图像各块所表示的信息重要度不同，对各图像块的计算结果赋予不同的权值γ_k，γ_k的取值与查询图像Q中各图像块像素点总数占整体图像比例有关，计算如下：

${\gamma _{_k}} = su{m_k}/\left( {2sum} \right)$

(10)

其中：sum_k表示第k个图像块中像素点的总数；sum表示整幅图像的像素点总数，且$\sum\limits_{k = 1}^9 {{\gamma _k} = 1} $。

为了保持图形检索的对称不变性，在计算相似度时分别计算查询草图与数据库中某幅图像img的原始特征V_D和翻转后图像的特征$\overline {{\mathit{\boldsymbol{V}}_D}} $的欧氏距离，记录较小的值Dist_i：

$Dis{t_i} = \min \left( {d\left( {{\mathit{\boldsymbol{V}}_{Qi}}, {\mathit{\boldsymbol{V}}_{Di}}} \right), d\left( {{\mathit{\boldsymbol{V}}_{Qi}}, \overline {{\mathit{\boldsymbol{V}}_{Di}}} } \right)} \right)$

(11)

按照Dist_i大小对单个数据库中的图像进行相似度排序。

记图像img在第i个数据库中的排名为P_i(img)，在各个数据库中匹配结果的排名平均值为P (img)：

$P{\rm{ }}\left( {img} \right) = {1 \over 7}\sum\limits_{k = 1}^7 {} {P_i}\left( {img} \right)$

(12)

其中：P (img)表示图像的总体相似度，P (img)越小，相似度越高。按照P (img)的大小对图像匹配结果排序。

3.3.2 结果优化

为了精准查找，对按式(12) 所得的排序结果采用蚁群算法^[13-14]进行优化。蚁群算法是对自然界中蚁群觅食行为的一种模拟。蚂蚁在觅食过程中，会沿途留下信息素，一条路径上，走过的蚂蚁越多，路径上的信息素强度增大，对蚂蚁就越有吸引力。而某些路径上通过的蚂蚁较少时，路径上的信息素会逐渐消散。本文用信息素表示两幅图像之间的关联度，为数据库中的N幅图像建立N×N大小的信息素矩阵τ，初始化τ为单位阵。每次用户检索图像后根据反馈信息更新信息素矩阵，若第i幅图像和第j幅图像都被选取，t时刻它们之间的信息素更新如下：

${\tau _{ij}}(t) = \rho \times (1 - {\tau _{ij}}(t - 1))/num + {\tau _{ij}}(t - 1)$

(13)

其中:τ_ij(t)∈[0, 1]，表示t时刻第i幅图像和第j幅图像之间的关联度，该值越大，两幅图像越相似; ρ是信息素增长因子; num是本次查询中用户选择的满意的图像总数。

经过多次迭代检索，信息素矩阵τ便可作为一个有效的图像关联度矩阵。对数据库中的某一张图像img在用式(12) 初步排序后，根据关联度矩阵τ调整图像的优先级：

$P'\left( {img} \right){\rm{ = }}{1 \over n}\sum\limits_{m = 1}^n {(1 - {\tau _{imgm}}){P_{}}(m)} {\rm{ + }}P{\rm{(}}img{\rm{)}}$

(14)

其中：n表示排序在该图像前面的图像个数；τ_img，m是图像img与第m张图像的关联度；P (m)是第m张图像的初始总体相似度; P (img)表示图像img的初始总体相似度，P′(img)表示图像img最终相似度。根据P′(img)的值进行排序，P′(img)越小，该图像优先级越高。

4 实验结果与分析

为了更好地检测算法的有效性，本文使用MPEG-7 shape1 part B图像数据库，库内包含动物、植物、交通工具、日常用品等70类图像，每类图像20幅。该数据库中的图像绘制清晰、噪声点少且图像中没有多余的物体，排除这些因素对检索结果的影响。实验前对数据库中的各图像作随机角度的旋转及相对自身大小的0.5至1.5倍的缩放，然后将处理后的图像随机放置于256×256大小的画布中，这样数据库图像中的草图便具有了不同的位置、尺度及旋转角度。处理后得到的部分图像如图 2所示。

图 2 图像库示例 Figure 2 Examples of image database

这些图像并不是由单像素构成的边缘图，为此在检索匹配前先使用Prewitt算子提取图像的边缘信息作为草图图像。实验环境为Inter PC (3.6 GHz CPU，8 GB内存)，Windows 10，编程工具为Matlab R2014a。

4.1 检索结果评价标准

为了实验结果数值化，本文使用查全率(precision)和查准率(recall)^[15]对结果进行评价。定义如下

$查全率 = \frac{{检索出的相关图像数}}{{数据库中的相关图像数}} \times 100\% $

(15)

$查准率 = \frac{{检索出的相关图像数}}{{检索出的图像总数}} \times 100\% $

(16)

查全率反映算法检索出相关信息的能力，查准率反映算法拒绝非相关信息的能力。相同条件下，查全率、查准率图中的曲线越高，查找效果越好。

4.2 旋转角度的确定

2.1.1节图像坐标系的确定中需要对图像进行旋转，每次旋转的角度a决定了坐标系能否精确定位，a越小，定位效果越好，但计算量会大幅增加，通过实验，选取适当的a使算法精确定位图像坐标系的同时尽可能地减少计算量。实验中随机选取20类草图图像，每类图像选取10幅，按照2.1.1节中的算法步骤，na°=360°中的n初值取1，并依次递增，而a便从360开始逐次减小，记录各图像在a取不同值时循环运算后得到的长方形包围盒面积占最初面积的比例，当比例不再减小时便得到最佳a值，实验结果如图 3所示。图 3中横坐标表示取不同的n值及对应的a角度，纵坐标表示旋转角度取a时得到的最小图像长方形包围盒面积与最初面积的比例，每个点处取同一类别10幅图像计算后的平均值。

图 3 不同角度下获得包围盒面积比 Figure 3 Ratio of bounding box area obtained at different angles

从图 3中可以看出，随着a的增大，各类图像的包围盒面积比例趋于平稳，不同类别的图像由于形状特征不同，在不同的a值处开始平稳，但所有曲线都会在a取36之前进入平稳状态，因此，在2.1.1节中a定为36。

4.3 原点偏移鲁棒性实验

为了验证本文方法对坐标系原点偏移的鲁棒性，随机选取20类草图图像，每类图像选择10幅，分别将各图像的坐标原点沿0°、45°、90°、135°、180°、225°、270°、315°共8个方向作图像大小5%、15%、25%、35%的偏移，以按照不同原点所提取的特征向量相对于按照初始原点所提取的特征向量差值比例作为判断标准，对比结果如图 4所示。

图 4 原点偏移后差值比例 Figure 4 Ratio of difference after origin moving

从图 4可以看出，偏移角度对特征向量的提取影响不大，轻微的偏移也没有大的影响，但随着偏移程度的增大，特征向量的偏差呈现极大幅度的增大。本方法对原点坐标轻微程度的偏移可以容忍，但对大幅度偏移的鲁棒性较差。

4.4 旋转坐标系有效性判断

方法的第一步是对各草图图像建立对应的坐标系，并在此坐标系中对草图图像分块。为了验证该实验步骤的有效性，进行一组对比实验，将本文方法第一步中通过旋转对比长方形包围盒建立坐标系过程去掉，直接提取草图图像各块的几何不变矩特征向量，与本文方法SBIRULGMI的实验结果对比如图 5所示。

图 5 本文方法与无旋转坐标系方法特征匹配结果对比 Figure 5 Comparison of feature matching results with and without rotation coordinate system

由图 5可以看出查全率较低时两种方法的检索效果相差不多，但随着查全率的增大，由于旋转草图的增多，进行坐标系旋转后得到的检索结果要明显优于不进行坐标系旋转的方法。

4.5 不同分块方法对比

文中2.1.2节分块过程中，从原点开始向外作射线，射线间隔角度不同，各图像块大小不同，过小的图像块难以表示草图特征，图像块过大又容易出现重复特征值。按照不同的分块间隔作对比实验，分别采用整体图像、90°、45°、30°、22.5°间隔将图像分成1块、4块、8块、12块及16块，按照5种分块方法计算特征向量并进行对比实验。实验中随机选取骆驼、鸟、杯子、松树和五角形图案等20类图像作为查询目标，对每类图像，由研究人员手绘10幅不同草图进行查询，取10幅草图的平均查准率作为该次查全率所对应的查询结果，匹配结果如图 6所示。

图 6 不同分块方法检索结果对比 Figure 6 Comparison of retrieval results of different block methods

由图 6可以看出，随着图像分块数的增长，检索匹配的结果越来越好，当分为8块时，检索结果最佳; 但当分块数增加到12和16时，分块数量过多，各图像块所包含的信息较少，难以表示某一图像的特征部分，识别过程中存在较多的相似图像块，无法准确判断，造成准确度大幅下降。

4.6 不同方法对比

形状上下文(SC)对于非刚性物体的识别有较好的鲁棒性，边缘分布直方图(EOH)对边缘信息敏感，在目标识别方面应用广泛，而文献[3]和文献[5]方法都在草图检索领域取得了较大进步。将本文方法与SC、EOH以及文献[3]方法、文献[5]方法的检索结果进行比较。

实验中同样选取骆驼、鸟、杯子、松树和五角形图案等20类图像作为查询目标，对每类图像，由研究人员重新手绘10幅不同草图进行查询，同样取10幅草图的平均查准率作为该次查全率所对应的查询结果，检索结果如图 7所示。

图 7 不同方法检索结果对比(一) Figure 7 Comparison of retrieval results of different methods (Ⅰ)

从图 7可以看出:文献[5]中的EI-S (Edgel Index-Structure)方法由于识别不同尺度及旋转角度图像时鲁棒性较差，检索准确率最低且下滑最快; 使用边缘分布直方图(EOH)、形状上下文(SC)、文献[3]中的GALIF检索结果依次变好; 本文方法图像定位准确，分块合理，且特性提取算法对图像形变及旋转、伸缩变换的鲁棒性更好，在查全率为1的情况下，查准率较其他四种方法平均提高17个百分点以上。实验证明本文方法进行检索时性能更好，对草图图像的检索结果更加准确。本文方法对茶杯和骆驼的检索结果示例如图 8所示，图 8(a)为用户输入草图示例，图 8(b)为前10个检索结果图像，按匹配优先度从左到右、从上到下顺序排列。

图 8 检索结果示例 Figure 8 Examples of retrieval results

由图 8(b)的检索结果可以看出，本文方法不仅对不同尺度、位置和旋转的图像有较好的匹配结果，也可以接受图像在一定程度上的形变。

为了保证对比结果的有效性，使用文献[3]的草图数据库再次进行不同方法对比实验，该数据库中草图图像结构更加复杂，但在旋转和尺度方面的变化不明显，部分草图如图 9所示。

图 9 文献[3]图像库示例 Figure 9 Examples of image database in literature

实验方法与使用MPEG-7图像库相同，检索结果如图 10所示。由图 10看出，本文方法的识别效果仍然最好，但由于图像库旋转和尺度变化不明显，文献[5]方法的识别效果有了明显提升。

图 10 不同方法检索结果对比(二) Figure 10 Comparison of retrieval results for different methods (Ⅱ)

4.7 蚁群算法检索结果优化实验

实验中以图 10中本文方法的检索结果为例，信息素增长因子ρ设为0.3，每次检索完后人工选定正确的检索结果并反馈给系统，系统自动更新信息素矩阵并开始再次检索。各次的检索结果曲线如图 11所示。

图 11 蚁群算法优化结果 Figure 11 Optimization results of ant colony algorithm

从图 11可以看出，随着用户反馈次数的增多，相似图像之间的关联性越紧密，各阶段的查准率都在逐步提升，且随着查全率的增大，关联度矩阵得到更全面的使用，优化效果更加明显。根据蚁群算法建立的图像关联度矩阵对草图图像检索的准确率有较好的提升效果。

为了检验优化算法的时间性能，分别对不同大小数据库在用户反馈后的信息素更新时间及不同反馈次数时对不同数量检索图像进行优化所需的时间进行对比实验。

当图像数据库的图像数量分别为500幅、2 000幅、5 000幅时，其信息素更新时间分别为0.005 0 s、0.027 0 s、0.113 0 s，由此可以看出，数据库图像数量越多信息素更新时间会增加，但每次信息素更新时间仍较短，对方法的性能不会造成明显影响。

表 1给列出了在不同数图像量的数据库中，各次反馈后对图像进行检索优化所需时间。由表 1可以看出，随着反馈次数以及图像数量的增多，关联图像随着增加，因此优化所需时间有少量增长，但总体时间较短，对方法的性能不会造成明显影响。

表 1 不同图像数量各次反馈后的检索优化时间 Table 1 Retrieval optimization time of different number of images after different times of feedback

5 结语

本文为了提高使用草图进行图像检索的识别准确率，增强特征提取算法对不同尺度、位置、旋转及形变草图的鲁棒性，提出了基于草图局部几何不变矩的图像检索方法(SBIRULGMI)，通过对图像进行分块，计算各块的几何不变矩作为特征向量，然后进行相似度匹配并优化结果。通过对不同草图数据库检索实验可以看出，SBIRULGMI对草图各种变化的鲁棒性较好，检索准确率较高，在不规则草图的识别与检索、图像匹配等领域都可以有效应用。但是由于局部分块方法的交互性不够，在对较为复杂或者简单的草图识别中准确率有所下降，以后可以从图像的分块方面进行深入的研究。

参考文献

[1]	KATO T, KUTITA T, OTSU N, et al. A sketch retrieval method for full color image database-query by visual example[C]//Proceedings of the 11th IAPA International Conference on Pattern Recognition. Washington, DC:IEEE Computer Society, 1992:530-533.
[2]	SMCULDCRS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(12): 1349-1380. doi: 10.1109/34.895972
[3]	EITZ M, RICHTER R, BOUBEKEUR T, et al. Sketch-based shape retrieval[J]. ACM Transaction on Graphics, 2012, 31(4): Article No. 31.
[4]	EITZ M, HILDEBRAND K, BOUBEKEUR T, et al. Sketch-based image retrieval:benchmark and bag-of-features descriptors[J]. IEEE Transactions on Visualization and Computer Graphics, 2011, 17(11): 1624-1636. doi: 10.1109/TVCG.2010.266
[5]	CAO Y, WANG C H, ZHANG L, et al. Edgel index for large-scale sketch-based image search[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2011:761-768.
[6]	CAO Y, WANG C H, WANG C, et al. MindFinder:interactive sketch-based image search on millions of images[C]//MM'10:Proceedings of the 18th ACM International Conference on Multimedia. New York:ACM, 2010:1605-1608.
[7]	BHATTACHARJEE S D, MITTAL A. Part-based deformable object detection with a single sketch[J]. Computer Vision and Image Understanding, 2015, 139(C): 73-87.
[8]	HU R, WANG T H, COLLOMOSSE J. A bag-of regions approach to sketch-based image retrieval[C]//Proceedings of the 18th IEEE International Conference on Image Processing. Piscataway, NJ:IEEE, 2011:3661-3664.
[9]	EITZ M, HILDEBRAND K, BOUBEKEUR T, et al. An evaluation of descriptors for large-scale image retrieval from sketched feature lines[J]. Computer & Graphics, 2010, 34(5): 482-498.
[10]	HU M K. Visual pattern recognition by moment invariant[J]. IRE Transactions on Information Theory, 1962, 8(2): 179-187. doi: 10.1109/TIT.1962.1057692
[11]	张伟, 何金国. Hu不变矩的构造和推广[J]. 计算机应用, 2010, 30(9): 2449-2452. ( ZHANG W, HE J G. Construction and generalization of Hu moment invariants[J]. Journal of Computer Applications, 2010, 30(9): 2449-2452. )
[12]	钟龙招. 基于草图的图像检索技术研究及系统实现[D]. 厦门: 厦门大学, 2014: 22-24. ( ZHONG L Z. Research and system implementation of sketch-based image retrieval[D]. Xiamen:Xiamen University, 2014:22-24. )
[13]	ZARCHI M S, MONADJEMI A, JAMSHIDI K. A semantic model for general purpose content-based image retrieval systems[J]. Computers and Electrical Engineering, 2014, 40(7): 2062-2071. doi: 10.1016/j.compeleceng.2014.07.008
[14]	陈光鹏, 杨育彬. 利用蚁群算法的记忆式图像检索方法[J]. 计算机科学与探索, 2011, 5(1): 32-37. ( CHEN G P, YANG Y B. Memory-type image retrieval method based on ant colony algorithm[J]. Journal of Frontiers of Computer Science and Technology, 2011, 5(1): 32-37. )
[15]	徐庆, 杨维维, 陈生潭. 基于内容的图像检索技术[J]. 计算机技术与发展, 2008, 18(1): 126-128. ( XU Q, YANG W W, CHEN S T. Content-based image retrieval technology[J]. Computer Technology and Development, 2008, 18(1): 126-128. )