Object Tracking Based on Local Sparse Appearance Model by menez

Scientific Journal of Information Engineering August 2015, Volume 5, Issue 4, PP.111-118

Object Tracking Based on Local Sparse Appearance Model Jihong Deng 1,2, Yuxing Wei 1# 1. Institute of Optics and Electronics of Chinese Academy of Sciences, Sichuan Province 610209, China 2. University of Chinese Academy of Sciences, Beijing 100039, China #

Email: dengjihong2012@163.com

Abstract Because of the algorithm of object tracking based on features matching cannot process the images whose texture is not abundant and L1 tracking cannot handle the drifting problem, we propose a new tracking algorithm of object tracking based on local sparse appearance model. The object appearance model is obtained by sparse representation and pooling across the local patches and the method of alignment-pooling is used to get the vector of the candidate. Both incremental subspace learning and sparse representation are employed to update the templates. Within the Bayesian inference framework, object tracking is a problem by finding the MAP. The framework of the algorithm includes four parts which are constructing a dictionary, sparse appearance model of candidates, calculating posterior probability and template updating. Numerous experiments demonstrate that the algorithm has achieved good results in many classical videos. Keywords: Image Processing; Sparse Appearance Model; Incremental Subspace; Object Tracking

基于局部稀疏表观模型的目标跟踪邓集洪 1,2，魏宇星 1 1. 中国科学院光电技术研究所，四川成都 610209 2. 中国科学院大学，北京 100039 要：针对基于特征点匹配的跟踪算法只能处理纹理丰富的图像，L1 跟踪算法会发生跟踪漂移，本文提出一种基于局

摘

部稀疏表观模型的跟踪算法。该算法采用稀疏表示和局部图像块重叠采样建立目标外观模型，通过平均化对齐汇聚操作获得候选目标的向量表示，结合稀疏表示和增量子空间算法来更新模板，在贝叶斯框架下，将跟踪看成是求解最大后验概率的问题。整个算法的框架分为构建字典、候选目标的稀疏表观模型、计算后验概率、模板更新四个模块。实验表明该算法在很多经典视频中取得了较好的结果。关键词：图像处理；稀疏表观模型；增量子空间；目标跟踪

引言目标跟踪作为一项关键技术在计算机视觉领域有很多的应用，例如人机交互、车辆跟踪、导航、医学图像

[1,2]

等。目标跟踪主要包括两个方面：一是目标表示，二是运动状态估计。目标表示包括全局描述和局部描

述，全局描述主要包括颜色直方图、梯度直方图等，局部描述主要包括 SIFT[3]、SURF[4]、稀疏表示[5]等。运动状态估计主要包括运动状态描述和运动状态估计，运动状态描述主要采用仿射参数和平移参数，运动状态估计的方法主要有 mean-shift[6]、卡尔曼滤波、粒子滤波(PF)[7]等。目前设计一种鲁棒性强的跟踪算法的挑战在于如何克服目标在运动的过程中存在尺度、旋转、平移、姿态变化，以及在复杂背景下如何有效地更新模 - 111 http://www.sjie.org

板，现有的算法都在有针对性地解决上述技术难点。宿德志等人[8]结合 SURF 特征描述和卡尔曼滤波提出一种基于特征点匹配的跟踪算法，该算法在纹理比较丰富的图像视频中取得了较好的结果，但是在纹理不丰富的图像视频中，该算法很难提取特征点从而导致跟踪失败。Mei 等人[9]提出 L1 最小化问题跟踪，首次将稀疏表示应用于目标跟踪，他将跟踪问题看作是寻找一个用模板进行稀疏的线性表示后具有最小重构误差的候选作为跟踪结果。该方法只考虑了目标的全局表示，没有利用稀疏编码系数来很好地区分背景与目标，存在遮挡时不具有鲁棒性。Xu Jia 等人[10]提出一种 ASLA 的跟踪算法，该算法采用结构化稀疏表观模型来表示目标，能够很好地处理遮挡，但是该算法没有考虑每个模板所占的权重以及没有考虑相邻帧的相关性，在目标外观变化较大时很容易发生目标漂移。现有的模板更新算法中，Ross 等人[11]提出的增量子空间算法不能解决遮挡问题，Mei 等人提出琐碎模板算法，能够解决遮挡问题，但是会发生目标漂移。针对上述算法存在的问题，本文提出一种基于局部稀疏表观模型的目标跟踪算法。该算法采用稀疏表示和局部图像块重叠采样建立目标外观模型，通过平均化对齐汇聚操作获得候选目标的向量表示，结合稀疏表示和增量子空间算法来更新模板，在贝叶斯框架下，将跟踪看成是求解最大后验概率的问题。整个算法的框架分为构建字典、候选目标的稀疏表观模型、计算后验概率、模板更新四个模块。实验表明该算法在很多经典视频中都取得了较好的结果。

1 算法 1.1 稀疏表示稀疏表示广泛引用于计算视觉领域，它的原理是一个信号可以由一组完备基来线性表示，并且自然图像中重叠采样的图像块具有相似性，因此在一组过完备基中，候选目标总是可以由少量几个相似的样本线性组合来表示。稀疏表示的数学模型可以由式(1)来表示。  a = arg min a

s.t. y = Da

⑴

式(1)中， y 是某个观测向量， D 是学习或者通过其他方式获得的字典，α 是编码获得的系数。这个问题是一个非凸的优化问题，Tao 和 Candes 等人[12]对压缩感知的证明，在满足一定条件下，通过将 L0 范数松弛为 L1 范数可以使得原问题由非凸优化问题转化为凸优化问题进行求解，如式(2)所示。



a = arg min a

s.t. y = Da

⑵

式(2)的问题即是 L1 最小化问题，许多学者对这个问题进行了广泛的研究，主要的解决方法可以分为两类：一是启发式贪婪算法，代表是最小角度回归(LARS)[13]；二是基于梯度的算法，代表是梯度投影(GP)[14]。

1.2 稀疏表观模型建立稀疏表观模型首先要建立字典，我们通过前几帧的跟踪结果收集了一系列的模板，T = [T1 , T2 ,..., Tn ] ，用来表示目标。对于每一个模板，我们在目标区域内按照一定的空间分布重叠地采样 N 个局部图像块。这些模块中的局部图像块，通过向量化表示后并归一化，便可构成字典，即 D = [d1 , d 2 ,..., d n× N ] ∈ R r ×( n× N ) ，其中

r 是局部图像块向量化表示后的向量维数。每个局部图像块表示目标中相应区域的外观，所有的局部图像块便可组成整个目标的外观。由于这些局部图像块是从多个模板中获取的，因此可以适应运动过程中目标外观的变化。对于每一个候选目标，我们按照同样的方式在其区域范围内重叠地采样 N 个局部图像块，并用 - 112 http://www.sjie.org

Y = [ y1 , y2 ,..., y N ] ∈ R d × N 来表示。这样我们便可以采用建立的字典对其进行稀疏编码，具体流程如式(3)表示。 min yi − Dbi bi

2 2

+ λ bi

⑶

bi ≥ 0

s.t.

式(3)中， yi 表示第 i 个向量化后的局部图像块， bi ∈ R ( n× N )×1 是对应的局部图像块的稀疏编码系数向量，其中 bi ≥ 0 表示每个系数是非负的。这样候选目标内所有的局部图像块的稀疏编码系数便可由

B = [b1 , b2 ,..., bN ] 来表示。由于每个局部图像块的稀疏编码系数都是由 n 个模板所得到的字典计算得来的，因此，为了增强编码的可靠性，我们对所获得的编码矩阵进行平均化对齐汇聚操作。首先将编码向量分成很多的段，然后再对其进行对齐汇聚操作[10]，从而得到一个更为可靠的较短的编码向量。每个局部图像块的稀疏编码向量根据每个元素与多个模板之间的对应关系划分成很多的段，即 biT = [bi(1)T , bi( 2 )T ,..., bi( n )T ] ，其中 bi( k ) ∈ R N ×1 表示候选目标中第 i 个局部图像块的编码系数向量 bi 中与第 k 个模板相对应的那一段。这些分段后的向量再进行等权重加权求和便得到了局部图像块的更为可靠的向量表示 pi ，如式(4)所示。 1

N N+1

.. .

Sparse Coding

N+2

…

Aligment -poling

…

Weight

2 Similarity

2N (n-1)* N+1

(n-1)* p1

N+2

nN b1

bN 图 1 稀疏表观模型图解

pi =

1 M

∑b k =1

(k ) i

, i = 1,2,..., N

⑷

式(4)中，pi 表示第 i 个局部图像块的新的编码向量，M 表示归一化系数。每个局部图像块的编码向量 pi 合在一起便构成了一个方阵 P 。如果只考虑单独对每个局部图像块进行编码操作，我们会丢失一些空间位置信息，因此我们对编码向量进行空间上的对齐汇聚操作，我们采用对齐汇聚方法对候选目标区域内的局部图像块的编码向量进行汇聚操作，得到汇聚后的向量 f ，如式(5)所示。

f = diag ( P )

⑸

稀疏表观模型的图解如图 1 所示， B = [b1 , b2 ,..., bN ] 矩阵中的每一列向量为候选目标中每一个局部图像块的稀疏编码系数向量，其中颜色越深代表系数越大。将 B 矩阵进行平均化操作后得到 P 矩阵，可以看出方阵 P 中，对角元素的系数比较大，因此进行对齐汇聚操作后，便得到了最终的编码向量 f 。图 2 是不同候选目标平均化对齐汇聚结果比较，可以看出实线框的更接近真实情况，所以对齐汇聚后的编码向量的系数都比较大，虚线框为不好的候选目标，所以对齐汇聚后的编码向量的系数整体偏小。因此实 - 113 http://www.sjie.org

线框所对应的候选目标更容易被选作跟踪结果。由于汇聚后的向量的每个元素表示由不同的局部图像块的编码系数，而每个局部图像块对候选目标的贡献是不一样的，因此我们提出一种加权平均的方法来计算候选目标之间的相似性度量，权重为每个局部图像块进行稀疏表示时的重构误差，如式(6)所示。

图 2 不同候选目标平均化对齐汇聚结果比较

ei = yi − Dbi 2 , i = 1, 2,..., N 2

= αt

⑹

e 1 N f (i ) × exp( i ) ∑ σ N i =1

式(6)中， ε i 表示每个局部图像块的重构误差， σ 是与重构误差大小有关的参数，通过实验我们规定

σ = 0.1 ，这个处理使得重构误差越小，局部图像块的稀疏编码系数越可靠，这样的局部图像块应该被赋予更大的权重。此外，我们还考虑了帧间相关性，参考了 mean-shift 跟踪算法[6]中提到的巴氏系数作为候选目标与模板之间的相似性度量方式，这里我们通过每个候选目标与上一帧跟踪结果对应的汇聚后的向量来计算巴氏系数，如式(7)所示。

βt =

1 N ∑ ft (i) ft −1 (i) N i =1

⑺

式(7)中， f t −1 表示上一帧跟踪结果对应的汇聚后的编码向量， f t 表示当前帧某个候选目标汇聚后的编码向量。最后的表观模型将候选目标与模板之间的外观相似性和帧间相关性通过式(11)结合起来。

1.3 模板更新现有的模板更新算法存在一些不足，Ross 等人[11]提出增量子空间算法，不能解决遮挡问题，Mei 等人[9] 提出琐碎模板算法，能够抗遮挡，但随着时间推移会发生跟踪漂移。本文算法结合稀疏表示与增量子空间模型，采用多模板的方法，根据概率选出需要替换的模板，不仅能够适应外观变化和抗遮挡，而且能有效防止跟踪漂移。早期的跟踪结果由于错误积累和干扰比较少，所以更加准确和稳定，因此这些跟踪结果在模板集中存储的时间应该比新获得的跟踪结果更长，故旧模板和新模板应该赋予不同的更新权重[10]。我们首先生成一组以 2 为底的指数增长序列，即 L = {0, 21 , 22 ,..., 2n −1} ，然后经过归一化之后得到累积概率序列 L p = {0, - 114 http://www.sjie.org

1 2n −1 − 1

,...,

2i −1 − 1 ,...,1} 。 2n −1 − 1

我们以均匀分布随机生成一个在[0，1]区间的随机数 γ ，然后通过确定随机数位于 L p 的哪个部分来决定剔除哪个模板，这样我们便可以实现新模板更新快而旧模板更新慢。我们结合增量子空间算法更新特征基向量和 Mei 提出的琐碎模板更新算法，当前帧的跟踪结果可以由式(8)表示。

α  p= U α + e= [U I ]   e

⑻

式(8)中， p 表示当前帧跟踪结果， U 表示由增量子空间算法更新得到的特征基向量， e 表示琐碎模板，

α 表示特征基向量的系数。我们可以通过求解 L1 最小化问题来得到 α ，如式(9)所示。 min p − Hc 2 + λ c 1 2

⑼



式(9)中， H = [U I ] , c = [α e]T , λ 是正则化参数。通过求解得到 α 之后便可得到重构的 p = U α ，将其加入到模板 T 的最后一列，这样便完成了模板更新。

2 跟踪框架在第一帧时初始化目标状态参数，本文选取仿射参数表示目标的运动状态，即 xt = ( xt , yt , st ,θt ,α t ,φt ) ，分别表示目标的中心位置、尺度、旋转、斜拉程度、错切程度。将跟踪问题看成基于一阶马尔科夫模型和隐含状态变量的贝叶斯推理问题。给定观测值 z1:t = {z1 , z 2 ,..., z t } ，通过 MAP 估计最有可能的隐含状态变量的 

i 值 xt = arg max p( xt | z1:t ) 。通过贝叶斯理论，如式(10)所示，其中 p ( xt | xt −1 ) 表示动态模型， p ( zt | xt ) 表示观测 xti

模型。在跟踪问题中，通常是观测模型在起主要作用，观测模型如式(11)所示。因此跟踪问题可以看作求解最大后验概率，并将具有最大后验概率的候选目标作为当前帧的跟踪结果。

⑽ ⑾

式(11)中， α t 通过式(6)计算得到， β t 通过式(7)计算得到。

3 实验结果本文的硬件环境为 Windows XP 32 位，Pentium(R) 4 CPU 3.00GHz 2.99GHz 1.99G 的内存，软件环境为 MATLAB2010。算法的运行速度为每秒 8.3 帧，在求解 L1 最小化问题时采用 SPAMS 工具包以及文中所有的正则化参数都为 0.01。实验中每个序列图像的第一帧中的目标位置都采用手动标记并且所有评测方法在第一帧中的目标位置都是相同的。我们将目标图像缩放到 32× 32 的像素区域，并以 8 个像素为步长重叠地采样

16 × 16 大小的局部图像块，在模板更新时，我们每隔 5 帧更新一次，并在增量子空间算法中只保留 10 个特征基向量。本文用到的视频都是来自经典跟踪论文中[15-18]和 CAVIAR[19]数据库以及我们自己采集到的视频。这些视频包含了很多挑战性的因素，包括光照变化，尺度变化，姿态变化，背景混乱，遮挡等。图 3 为本文算法在经典视频上的跟踪结果，其中矩形框的中心位置为目标的中心位置，矩形框的大小为目标的大小。每一个视频都对应着不同的场景：(a)存在尺度和旋转变化；(b)存在平移和光照变化；(c)存在光照变化；(d)存在遮挡和光照变化；(e)存在遮挡和旋转；(f)存在旋转变化。表 1 为本文跟踪结果的平均中心误差，其中 Name 为视频的名称，Total frames 为视频的帧数，Correct frames 为正确跟踪的帧数，其中我们认为中心误差小于 6 的情况为正确跟踪的结果，Average center error 为目标中心误差的平均值。从图 3 和表 1 可以看出本文算法在这些视频上的跟踪结果都比较好，故本文算法具有较好的鲁棒性和准确性。平均中心误差的计算公式如式(12)所示。式(12)中， ( xt , yt ) 表示当前帧跟踪结果中目标的中心位置，

( x , yt' ) 表示当前帧目标中心的真实位置， N 表示视频中总的帧数， ε 表示平均中心误差。 ' t

- 115 http://www.sjie.org

(a)

board

(b)

car4

(c)

car_illumation

(d)

(e)

(f)

davidin300

faceocc2

panda

图 3 本文算法跟踪结果表 1 跟踪结果平均中心误差 Name

Total frames

Correct frames

Average center error

Bord Car4 car_illumation davidin300 faceocc2 panda

461 659 90 462 819 241

325 652 80 362 655 221

6.4 1.6 2.0 3.2 3.6 2.6

- 116 http://www.sjie.org

( xt − xt' ) 2 + ( yt − yt' ) 2 , = ∑ t εεε t =

⑿

t =1

图 4 为本文算法与其他现有算法的比较结果，其中实线矩形框为本文跟踪结果，点线矩形框为 ASLA[10] 跟踪结果，点划线矩形框为 PF[7]跟踪结果。从图 4(a)可以看出，从第 86 帧开始，当目标与相似物发生交叉时，本文算法能够稳定的跟踪目标，而 ASLA 算法和 PF 算法都跟踪失败；从图 4(b)可以看出，从 105 帧开始，当目标发生遮挡时，本文算法能够继续准确地跟踪目标，而 ASLA 算法和 PF 算法都跟踪失败。表 2 跟踪算法性能比较 Name ThreePastShop2cor Woman

Total frames 350 241

PF(CF/ACE) 32/131.6 68/120.8

ASLA(CF/ACE) 85/118.3 104/60.2

OURS(CF/ACE) 312/2.6 231/2.5

表 2 为本文算法和其他现有算法的性能比较。其中 Name 为视频名称，Total frames 为视频中总的帧数， CF 为正确跟踪帧数，ACE 为平均中心误差，其中加粗的字体表示性能最好，故从表中可以得知本文算法优于其他现有算法。

4 结论本文创新点在于提出了局部稀疏表观模型，并结合稀疏表示与增量子空间算法更新模板，不仅解决了目标在运动过程中发生的外观变化，而且能够处理局部遮挡。算法主要采用稀疏表示和局部图像块重叠采样建立目标外观模型，通过平均化对齐汇聚操作获得候选目标的向量表示，结合稀疏表示和增量子空间算法来更新模板，在贝叶斯框架下，将跟踪看成是求解最大后验概率的问题。实验表明该算法在很多经典视频中取得了较好的结果。该算法也存在一定的缺陷，在第一帧时需手动地标记目标的初始位置，因此在今后的工作中应该将目标检测的方法融合进来，使之能够自动检测目标，并进一步提高算法的实时性。

(a) ThreePastShop2cor

(b) Woman

图 4 本文算法与其他算法比较结果

REFERENCES [1]

Yilmaz, O. Javed, and M. Shah. Object Tracking: A Survey. ACM Computing Surveys, 2006, 38(4): 1-45

[2]

Yi Wu, Jongwoo Lim, and Ming-Hsuan Yang. Online Object Tracking: A Benchmark[C]. Computer Vision and Pattern Recogniton (CVPR), 2013 IEEE Conference on, IEEE. 2013

[3]

Lowe D G. Object recognition from local scale invariant features[C]. International Conference on Computer Vision, 1999, - 117 http://www.sjie.org

1150-1157 [4]

H. Bay, T. Tuytelaars and L. Van Gool. SURF: Speeded up robust features[C]. In Proceedings of the European Conference on Computer Vision (ECCV), 2006, 1113-1126

[5]

Michael Elad and Michal Aharon. Image denoising via sparse and redundant representations over learned dictionaries[J]. IEEE Transactions on Image Processing, 2006, 15(12): 3736-3745

[6]

Comaniciu D, Ramesh V, Meer P. Kernel-based Object Tracking[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2003, 25(5): 564-577

[7]

M. Sanjeev Arulampalam, Simon Maskell, Neil Cordon. A tutorial on particle filters for online nonlinear/non-Gaussian Bayesian tracking[J]. IEEE Transactions on Signal Processing, 2002, 50(2): 174-188

[8]

SU Dezhi, WANG Kun, WANG Yuliang, ZHAO Wenfei. Moving Target Tracking Based on SURF Algorithm and Kalman Forecast[J]. Journal of Naval Aeronautical and Astronautical, 13, 23(4): 378-382

[9]

X. Mei and H. Ling. Robust visual tracking using L1 minimization[C]. Computer Vision(ICCV), 2009 IEEE International Conference on, IEEE. 2009

[10] Xu Jia, Huchuan Lu, and Ming-Hsuan Yang. Visual tracking via adaptive structural local sparse appearance model[C]. Computer Vision and Pattern Recogniton(CVPR), 2012 IEEE Conference on, IEEE. 2012 [11] D. Ross, J. Lim, R.-S. Lin, and M.-H Yang. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1): 125-141 [12] Candes E J, Tao T. Near-optimal signal recovery from random projections: Universal encoding strategies[J]. Information Theory, IEEE Transacrions on, 2006, 52(12): 5406-5425 [13] Efron B, Hastie T, Johnstone I, et al. Least angle regression[J]. The Annals of statistics, 2004, 32(2): 407-499 [14] Figueiredo M A, Nowak R D, Wrigight S J. Gradient projection for sparse reconstruction: Application to compressed sensing and other inverse problems[J]. Selected Topics in Signal Processing, IEEE Journal of, 2007, 1(4): 586-597 [15] Babenko B, Yang M H, Belongie S. Robust object tracking with online multiple instance learning[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2011, 33(8): 1619-1632 [16] Kwon J, Lee K M. Visual tracking decomposition[C]. Computer Vision and Pattern Recogniton(CVPR), 2010 IEEE Conference on, IEEE. 2010: 1269-1276 [17] Wang S, Lu H, Yang F, et al. Superpixel tracking[C]. Computer Vision(ICCV), 2011 IEEE International Conference on, IEEE. 2011: 1323-1330 [18] Oron S, Bar-Hillel A, Levid, et al. Locally orderless tracking[C]. Computer Vision and Pattern Recogniton(CVPR), 2012 IEEE Conference on, IEEE. 2012: 1940-1947 [19] R. B. Fisher. The PETS04 Surveillance Ground-Truth Data Sets. In PETS, 2004

【作者简介】邓集洪（1989-），男，汉，硕士研究生，主要研究方向为计算机视觉与数字图像处理。 Email: dengjihong2012@163.com

- 118 http://www.sjie.org