A video caption detection method with edge and corner features

Page 1

Scientific Journal of Information Engineering October 2013, Volume 3, Issue 5, PP.85-91

A Video Caption Detection Method with Edge and Corner Features Yunlan Zhao 1†, Yonghong Song 1, Yi Zhou 2 1. Software Engineering School, Xi’an Jiaotong University, Xi’an Shanxi 710049, China 2. Broadcast and TV Center, propaganda department, Xi’an Jiaotong University, Xi’an Shanxi 710049, China †

Email: 617732720@qq.com

Abstract Video caption contains important clue of video content, so it plays a significant role in the content based video retrieval. In this paper, a video text detection approach which combines edge and corner point features is proposed. Firstly, the gradient map is obtained by applying Roberts edge operator on the three color components from a single video frame. Then the Harris corner point is extracted on the gradient maps. Thirdly, the candidate text regions are acquired by morphological operations. Finally, the captions are located using the proposed text features and connected component analysis. The experiment results show the proposed approach can detect captions with high speed and high accuracy. Keywords: Caption Detection; Roberts Gradient Operator; Corner Detection; Video Text Features

一种结合边缘和角点特征的视频字幕检测方法 赵云兰 1,宋永红 1,周颐 2 1. 2. 摘

西安交通大学 软件学院,陕西 西安 710049

西安交通大学 宣传部广电中心,陕西 西安 710049

要:视频中的字幕提供了描述视频内容的有用信息,对于基于关键字的视频检索具有重要作用。对视频中字幕进行了

研究,提出了一种结合视频帧中的边缘和角点特征进行字幕检测的方法。该方法首先提取彩色视频帧在 RGB 3 个颜色分量 上的彩色 Roberts 梯度算子,得到凸显边缘区域的灰度图像,然后在得到的灰度图像上提取 Harris 角点,再通过形态学处理 得到候选字幕连通区域,最后结合本文提出的一些视频文本特征进行连通区域分析得到最终字幕区域。实验证明,该算法 能够快速定位字幕区域,定位准确性较高。 关键词:字幕检测;罗伯特交叉梯度算子;角点检测;视频文本特性

引言 近些年,随着多媒体技术和互联网的快速发展,以视频为主的多媒体信息正在以惊人的速度增长。传统 的数据库检索中采取的基于注释的检索方法已经不能满足人们的需要,将视频帧中的字幕和文本提取出来作 为检索依据的检索方法已经成为目前研究的主流。从图像和视频帧中提取出的字幕和文本与图像和视频本身 要表达的信息具有很大的相关性,所以视频帧中的字幕和文本是视频检索中的关键信息。一般来说,数字视 频中的字幕可以分为三类:1、场景文字,指的是视频中场景本身所包含的文字,如视频中的标识牌、广告 牌等等。场景文字出现的位置、大小、颜色和文字方向都具有很高随机性。2、静态字幕,一般是后期制作 中加入的文字信息,一般出现的位置、颜色大小等较为固定,与视频内容往往有直接联系。3、滚动字幕。 与静态字幕一样,这种字幕也是后期加入的文字。但有所不同的是这种字幕在视频序列中以动态滚动方式呈 现,在每一帧中出现位置不同。由于静态字幕针对视频内容能提供最全最可靠的信息,因此本文主要针对静 态字幕进行研究。 - 85 http://www.sjie.org/


1

相关工作 目前,已有的视频字幕检测方法大致可以分为三类:基于连通区域[1]、基于边缘[2][3]和基于纹理[4][5]。下

面分别对这三种典型的方法和我们的算法进行分析对比。 基于连通区域方法假设同一文字区域内的文字颜色相同,所以进行连通区域标注时会属于同一区域。该 方法适用于高质量的简单背景图像,其根据灰度值、轮廓等特征把视频帧分割成多个区域,然后根据区域的 最小外接矩形、面积、平均灰度值等特征来检测文字区域,该算法虽然简洁,但很难描述各种复杂的情况; 我们的算法通过对复杂背景用彩色 Roberts 算子灰度化,突出背景变化显著的区域,再利用角点和形态学处 理得到连通区域,这种方法适用于任何复杂背景。 基于边缘的方法利用图像中文字区域相对于背景具有较高的对比度这一特征,这一特征反应在边缘上即 为文字区域具有丰富的边缘信息。该方法对于具有高对比度和平滑背景的图像具有较强的鲁棒性,单纯的边 缘检测方法也可以快速地检测出文字,但是由于约束参数设置多且复杂,检测错误率较高。我们的算法使用 边缘检测的同时还利用角点的特性对文字区域准确定位,很大程度上降低了检测错误率。 基于纹理分析的方法是通过考察像素的邻域,利用纹理特征去决定一个像素点或者像素块是否属于文字, 虽然这种方法能检测复杂背景下的文字,但是其数学计算太过复杂,时间复杂度高。我们的算法结合边缘和 角点的特征检测文本区域,不仅对背景复杂的图像具有很高的鲁棒性,而且时间复杂度比较低。 文献[6]提出了 EDA(Edge Detection/Area based)算法,该算法是一种结合了彩色边缘检测与区域生长的 图像分割方法。该方法首先定义一个彩色 Roberts 梯度算子,对原始图像经彩色 Roberts 算子处理后得到一灰 度边缘图像,然后通过采用灰度图像中的一类最佳边缘检测算子 LOG 算子对提取出的彩色图像的灰度边缘 作二次边缘提取,进而得到二值边缘图像完成彩色图像的边缘提取。再通过形态学膨胀技术生成区域图像, 并采用区域生长方法标记候选字符块,然后对候选字符块分析与分解,利用字符空间频率分析和确定真正的 字符块,得到最终的文本块。文献[7]使用了 Harris 角点检测,对角点图像通过形态学膨胀技术得到区域图像, 然后通过一些图像区域特征判断候选区域块,进而得到最终的文本区域块。 本文提出的视频字幕检测算法结合了边缘和角点特征。在我们的方法中首先对彩色图像的 RGB 空间进 行 3 维彩色 Robert 算子处理[6],然后在对所得到的灰度图像进行 Harris 角点检测[7][8][9],经形态学处理之后形 成连通区域[6][7],最后在综合考虑文字区域的各种特征的到最终的结果[6][7][10]。

2

结合边缘与角点特征的视频字幕检测 本文提出的字幕检测算法结合了边缘和角点特征,通过彩色 Roberts 梯度算子、Harris 角点检测方法和一

系列后处理完成了图像字幕区域的准确定位。具体分四个步骤,分别是(1)对输入图像提取彩色 Roberts 边 缘梯度算子,得到原图的强化字符区域的边缘梯度图像;(2)对边缘梯度图像进行角点检测;(3)对角点 图像通过形态学处理得到候选字幕区域;(4)后处理。在后处理中对候选字幕区域分类得到字幕区域,最 后合并重叠字幕区域得到最终结果。

2.1 基于三维彩色空间 ColorRoberts 梯度算子 对于灰度图像而言,任一灰度边缘检测算子若要检测一个象素点是否为边缘点,其结果与被检测象素点 相关邻域内象素点的灰度差有密切关系:若灰度差大,则对检测的结果影响也大。对于彩色图像来说,任何 边缘检测算子与象素点之间的色差有密切关系。传统的彩色图像边缘检测算法往往单纯地把经典的灰度边缘 检测算子分别作用于彩色空间的三分量上分别提取边缘,并用适当的方式合并三分量的处理结果,如当有两 个分量有边缘时即可判定彩色图像存在边缘(单维空间投票法),或当有一分量存在边缘时才继续另一分量 的边缘检测,以证实前一分量的检测结果,以上传统方法均不能取得好的结果。彩色空间的 3 个分量只反映 了色彩的一部分信息,色彩的全部信息是由三分量共同综合反映出来的。本文使用的 ColorRoberts 算子是全 - 86 http://www.sjie.org/


面作用于彩色三分量的综合方法,充分利用了全面的色彩信息,所以进行彩色图像边缘检测的效果优于只分 别作用在彩色三分量上的传统彩色边缘检测方法。 ColorRoberts 梯度算子描述如下: 1)输入彩色图像 I,其中象素点(i, j)的彩色分量为 I(i, j, k),k=1,2,3。 2 ) 定 义 彩 色 图 像 彩 色 Roberts 梯 度 算 子 ColorRoberts , ColorRoberts ( i, j ) = √ (

; , ),

,;,

其中,Eud( , ; , )定义为象素点(

)与(

)。 )之间的彩色值欧式距离

(( , , ) (

) (

;其中,

( , , ))

(( , , )

( , , ))

(( , , )

( , , )) )

I 经 ColorRoberts 处理后得到一灰度边缘梯度图像 。 本文使用的彩色 Roberts 梯度算子在彩色图像边缘检测中时,没有将 Robert 算子简单地应用于彩色图像 的像素彩色值的各个分量上,而是采用欧式距离将像素彩色值的各个分量综合考虑。这种算法利用了字符边 缘特征,弱化了变化缓慢的背景区域,突显出边缘变化剧烈的文本区域和部分边缘变化明显的背景区域。图 2 给出了灰度图像边缘检测 Roberts 算子应用彩色图像中的结果,由图 2 可见,提取出的边缘图像中文本区域 与背景易于分割,且文本区域完整、清晰,字符形状保持较好,基本符合最初提出的彩色图像边缘检测算子 设计准则,满足后续工作提取文本区域的要求。

(a)原始输入图

(b)灰度图像

图 2 ColorRoberts 算子在彩色图像中的灰度化图像

2.2 Harris 角点检测 本文采用基于模板的 Harris 角点检测算法,得到角点检测图像 。角点是图像的一个重要局部特征,它 以较少的数据量保存了图像中重要的特征信息。Harris 通过微分运算和自相关矩阵检测角点。这种算法具有 计算简单、 提取的角点特症均匀合理、 可以定量提取特征点以及算子稳定的特点。 对灰度边缘图像 进行 Harris 角点检测,生成角点图像 。其处理过程表示如下: 使用高斯窗函数 W(u,v)计算图像偏导数,本文选用 3*3 的高斯窗函数,用( , )转换窗函数 W(u, v),即 (

)

∑[(

)

( , )]

( )

把公式(1)的第一项经过泰勒级数展开,即 (

)

(

)

* (

- 87 http://www.sjie.org/

) (

)[

] +

( )


其中 和 分别表示 x 和 y 方向上的偏导数。把公式(2)带入公式(1),即 ( , )

(

) (

)[

]

[

] [

]

( )

在公式(3)中 M 为自相关矩阵,由公式(3)可得出 M 矩阵的计算公式,即 [

∑ ( ) ( ) ∑ ( ( )) ] ∑ ( ) ( ) ∑ ( ( ))

( )

如果 M 的两个特征值都很小,则说明当前点处于平坦区域;如果 M 的两个特征值一个较大另一个较小 时,表示当前点处于边缘上;当两个都很大时表示当前点是角点。Harris 提供了另一个公式来获取这个点是 否是角点的一个评价: ( )

( )

( )

R 就代表了角点值,其中 k 是一个自己设定的可调灵敏参数,典型的为[0.4 0.6]之间,本文通过在测试集 上进行大量实验之后选取 k=0.6。 本文为了使角点选取更加准确,在计算了每个点的角点值 R 后,做了一个极大值抑制,即计算出每个点 的角点值 R 后,找出其中最大的 R 值,赋值给 的 8 邻域点的 R 值,当某点的 R 值大于 点。本文经过大量的试验,取

。再判断每点的 R 值是否大于

,和 R 值是否大于它

,并且 R 值大于它的所有 8 邻域点的 R 值时,判断当前点为角

,图 3(a)给出了对灰度图像的角点检测图像。

(a)角点图像

(b)膨胀产生的连通区域

图 3 文本区域连通域的产生

2.3 生成候选字幕区域 由于角点是都是孤立的点,想利用连通区域性质判断文本定位区域的正确与否,需要先对角点图像进行 形态学膨胀处理。膨胀技术能使原图像保持原有形状。对于图像 ,采用结构元素 B,对 的膨胀定义为 Diration( ,B)= ⊕B={x: ̌ ∩ ≠0,x= } 其中̌ ={x-b:b∈B},即结构元素 B 关于原点对称后沿向量 x 平移。结构元素是具有一定形状的(如矩形、 园、有向线段和有向点等)。结构元素包含原点,其尺寸相对地远远小于所考察目标。 选择合适的结构元素 B,对提取出的角点图像 采用形态学膨胀技术生成区域图像 ,经过膨胀处理互相 离得很近的孤立角点就可以合并成一个区域。在文本和字幕区域角点的分布是一般是很紧密的,因为字符或 汉字通常不会单独出现,而是和其他字符或汉字组成一个水平串。因此通过绘制连通区域的定位矩形就可以 有效的检测到文本和字幕的位置。图 3(b)给出了对角点图像经过形态学膨胀技术处理的结果。 结构元素 B 的选择对于候选文本区域形成与文本区域的提取至关重要。若结构元素的尺寸过大会导致无 效的膨胀重叠现象,而结构元素的尺寸过小又不能有效的形成文本块区域,得到的可能是单字符或字符片段。 视频中的字幕一般都是水平方向排列的字符串,所以本算法采用的结构元素 B 是高度为 2 和宽度为 20 的矩 形长条。经过试验表明这样的结构元素既可以防止文本块的上下粘连,也能够有效定位水平方向的字幕位置。 - 88 http://www.sjie.org/


2.4 后处理 由于视频背景的复杂性,上述过程检测到的联通区域有可能并不是文本或字幕区域,因为角点密集的区 域也可能出现在变化剧烈的非文本区域。我们通过分析文本区域的特征可以滤除掉大部分错检区域。为此本 文提出了四个区域属性来描述文本区域,分别是:面积、饱和度、方向和纵横比。为了方便描述,在这里分 来表示上述四个特征[8],图 4(a)(b)(c)(d)分别给出了经 、 、

别用 、 、 和

(a)经 处理后的图像

(b) 经 处理后的图像

(c) 经 处理后的图像

(d) 经

处理后的图像。

处理后的图像

图 4 文本区域的定位

经过上述视频字幕特征处理之后会得到比较理想的字幕定位区域,但是由于新闻视频中有些字幕之间会 离的比较近,经过形态学处理之后可能会出现字幕定位区域的重叠或者交叉。为此本文使用了一种在一定程 度上消除重叠定位的方法。首先判断是否有重叠定位区域,当有重叠定位区域的时候需要取消原定位区域, 然后计算出新定位区域的位置重新定位。当两个定位矩形的左上角坐标的最大值小于右下角坐标的最小值时 判定这两个定位矩形相交,重新定位的矩形位置应外切这两个矩形。 通常情况下,通过上述提到的四个特征属性就可以有效的滤除掉非文本区域。在这儿值得说明的一点是 本文提出的算法是独立于语言的,可以用于多语言场景。

3

实验与结果分析 本文实验数据集来源于新浪视频网站和电影随机截图,共 100 幅 bmp 格式的图片,包含 50%的新闻图片

和 50%的电影截图图片,共计字幕数 642。语言包括汉语和英语,分辨率有 576*432、624*352、672*378 和 600*480 四种形式。 在对文本定位正确性的测量中,本文参考了文献[12]的评价标准,下面的分类定义了文本检测方法检测 出的检测块的定位: 正确检测块 TDB:检测块至少包含一个字符,并且检测出的字符数至少占本字幕字符数的 80%以上。 错误检测块 FDB:检测块不包含任何字符。 事实文本块 ATB:对于每一幅测试图片,我们都可以手动的计算出本幅图片中实际含有的字幕数,这个 字幕数就叫做事实文本块。 评价标准: 查全率 R=

查准率 P=

⁄(

F 测量=

) ⁄(

)

由于新闻视频和电影视频字幕复杂度的不同,本文分别统计了对以上两种测试集的测试数据。应用以上 测试评判标准,可以的得出表 1 的测试数据。 表 1 实验结果统计数据 测试集分类 电影类测试集 新闻类测试集 总测试集

查全率 R 89.36% 81.04% 82.87%

查准率 P 95.45% 90.22% 91.41% - 89 http://www.sjie.org/

F值 0.9230 0.8538 0.8693

时间 秒/张 8.2182 8.4646 8.3414


表 2 实验数据对比 算法分类 文献[6] 文献[7] 本文算法

查全率 R 64.29% 73.96% 82.87%

查准率 P 80.04% 92.37% 91.41%

F值 0.7131 0.8217 0.8693

时间 5.1898 9.0214 8.3414

本文还对文献[6]和文献[7]在本测试集上进行了仿真测试,并和本文提出的算法进行了比较分析,结果在 表 2 中显示。从表 2 的对比数据可以看出本文算法总体上优于文献[6]和文献[7]中所提出的算法。文献[6]的 算法首先采用彩色 Roberts 梯度算子,该梯度算子将彩色值的各分量综合考虑,充分利用全面的色彩信息, 得到突显文本区域和弱化背景区域的边缘梯度图,然后在得到的边缘梯度图上利用 Log 算子进行二次边缘提 取,再通过固定阈值得到二值图像,最后通过大量的经验阈值利用字符空间频率分析和确定真正字符块。由 于本文献大量使用了边缘特性,所以对于背景剧烈变化的复杂图像和边缘信息很少的图像提取效果不佳,而 且本文在二值化和字符空间频率分析时大量使用了固定阈值和经验阈值,所以测试数据对测试集的依赖程度 较大。以上原因导致了测试结果的偏低。 文献[7]的算法首先对图像灰度化后进行 Harris 角点检测,再通过形态学膨胀技术形成连通区域图,最后 使用了一些文本块的公共属性判断定位区域的正确性。本文献算法在灰度图像上直接提取角点,该灰度图像 没有通过突出文本区域和弱化复杂背景区域的处理,所以角点的提取具有盲目性,导致了大量的漏检和错检 区域,经过一些文本属性的过滤处理之后,虽然能够滤除掉大部分错检区域,但是同时也将增多漏检区域的 数量,导致的直接结果就是虽然有很高的查准率,但是查全率较低。 本文提出的算法结合了以上两篇文献的特长,首先使用了 ColorRoberts 彩色梯度算子对图像进行灰度化, 如上所说,该梯度算子不仅作用于彩色象素值的各分量上,而且使用欧氏距离将象素彩色值的各分量综合考 虑。提取出的边缘梯度图滤除了背景中细节少、边缘变化缓慢的区域,从而很大程度上弱化了背景区域,同 时也突出了细节丰富、边缘变化剧烈的文本区域。该算子检测出的文本区域完整、清晰,字符形状边缘保持 较好,文本区域与背景易于进一步剥离,满足后续工作提取文本的要求。本文算法在检测出的该边缘梯度图 上提取了 Harris 角点,既避免了文献[6]中后续工作中大量固定阈值的使用,也使得文献[7]中 Harris 角点的提 取不具有盲目性,使角点对文本区域的定位更加准确,也对后续文本区域属性的使用提供了可靠性。进过以 上分析,本文提出的算法总体效果优于文献[6]和文献[7]中提出的算法,这在表 3 中也得到了体现。

4

结论 本文提出的算法结合了彩色图像边缘检测算子和角点检测,通过灰度化、焦点提取、形态学膨胀和特征

描述等一系列操作对图像中的文本区域完成了定位。彩色图像边缘检测算子是一种全面作用在 RGB 3 个颜色 空间分量上的灰度图像边缘检测算法,这种灰度变换采用欧氏距离将 Roberts 梯度算子应用到图像像素彩色 值的各分量上,这样变换出的灰度图像更能凸显出边缘变化剧烈的区域,而弱化背景中细节少、变化缓慢的 区域。这样的处理对接下来的角点检测也更加有利,很大程度的提高了检测正确率。经过后期根据文本特性 的排错处理,本算法可以达到相当好的结果。 本文是针对水平方向的文本,因为图像中重要的文本主要出现在水平方向。这也是本方法下一步将研究 的方向。

REFERENCES [1]

LI Fang, WU Bin, ZHANG Hong-ying. New Algorithm for video caption extraction based on 8-Connected components labeling[J]. China academic journal electronic publishing house, 2009, 33(02): 69-71

[2]

Palaiahnakote Shivakumara, Weihua Huang, Chew Lim Tan. An efficient edge based technique for text detection in video frames[J]. IEEE computer society, 2008, 307-314

[3]

LIANG Xue-zhan, ZHANG Xiang, ZHU Ming. News Captions Detection Based on Edge Detectionand Line Features[J]. Computer - 90 http://www.sjie.org/


simulation, 2009, 26(3): 223-226 [4]

WANG Guang-yong, WANG Lin-lin, WANG Zuo-cheng. Texture Analysis—based Edge Detection Algorithm[J]. Computer science, 2007, 34(9): 227-229

[5]

Automatic caption location and extraction in digital video based on support vector machine[J]. Journal of computer-aided design & computer graphics, 2002, 14(8): 1-3

[6]

ZHANG Yin, PAN Yunhe. A new approach for text extraction from color image and video[J]. Journal of computer_aided design & computer graphics, 2002, 14(1): 1-5

[7]

Xu Zhao, KAI-Hsiang Lin, Yun Fu. Text From Corners: A Novel Approach to Detect Text and Caption in Videos[J]. IEEE transactions on image processing, 2011, 20(3): 790-798

[8]

ZHANG Yang, ZHU Ming. News Captions Detection Based on Corner Detection and Adaptive Threshold[J]. Computer Engineering, 2009, 35(13): 186-187

[9]

LIU Ya-zhou, LIU Guo-rong, WANG Tian-jia. Text detection in color images based on Harris corner[J]. Micro electronics & computer, 2010, 27(10): 136-139

[10] Michael R. Lyu, Jiqiang Song, Min Cai. A Comprehensive Method for Multilingual Video Text Detection, Localization, and Extraction[J]. IEEE transactions on circuits and systems for video technology, 2005, 15(2): 243-255 [11] Qixiang Ye, Qingming Huang, Wen Gao, Debin Zhao. Fast and robust text detection in images and video frames[J]. Image and Vision Computing, 23 (2005): 565-576 [12] Palaiahnakote Shivakumara, Trung Quy Phan, Chew Lim Tan. A Laplacian Approach to Multi-Oriented Text Detection in Video[J]. IEEE transactions on pattern and machine intelligence, 2011, 33(2): 412-419

【作者简介】 1

赵云兰(1987-),女,汉族,硕士,学

2

宋永红(1967-),女,汉族,学士,

生。研究方向:图像处理、模式识别与

高级工程师。研究方向:图像处理、模

智能系统。学习经历:2007-2011,就读

式识别与智能系统、软件工程。学习经

于山东工商学院通信工程专业(学士),

历:1985-1989 年就读于西安交通大学计

2011-2014 就读于西安交通大学软件工

算机科学与工程系。

程专业(硕士)。

Email: songyh@mail.xjtu.edu.cn

Email: 617732720@qq.com 3

周颐(1962-),男,汉族,学士,副编

审。研究方向:图像处理、模式识别与智 能系统。学习经历:毕业于中国传媒大学 电视编导专业。 Email: zhouqinhan@mail.xjtu.edu.cn

- 91 http://www.sjie.org/


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.