基于高斯金字塔的运动目标检测
屠礼芬,仲思东,彭祺,梅天灿
(武汉大学 电子信息学院,湖北 武汉,430072)
摘要:针对自然环境下运动目标检测背景动态变化问题,提出一种新的基于高斯金字塔模型的背景差分算法。首先将图像序列进行多尺度分解,得到不同分辨率下的当前帧和背景帧;然后,在不同分辨率下采用高低双阈值进行背景差分运算,得到双阈值产生的2帧前景图像,阈值根据环境自动获取;最后,将各层差分图像自顶向下融合检测感兴趣的运动目标,并在HSV空间中去除阴影。背景模型的初始化和更新方法基于2种假设:一是背景点出现的概率较大;二是距离当前帧越近的点越能真实地描述背景。研究结果表明:该算法能有效地应用于动态背景环境下,可以克服光照变化及阴影的影响。多个标准图像序列的测试证明了该算法具有较高的准确性、鲁棒性和自适应性,时间复杂度低,可以运用于实时检测系统中。
关键词:运动目标检测;高斯金字塔;动态背景;自适应阈值
中图分类号:TP391 文献标志码:A 文章编号:1672-7207(2013)07-2778-09
Moving object detection based on Gaussian pyramid
TU Lifen, ZHONG Sidong, PENG Qi, MEI Tiancan
(School of Electronic Information, Wuhan University, Wuhan 430072, China)
Abstract: To solve the problem of dynamic background under natural environment when detecting moving objects, a new background difference method based on Gaussian pyramid model was proposed. Firstly, multi-scale decomposition was carried out for image sequence to get multi-resolution images. Then a high and low double thresholds background difference operation was used under different resolutions to get two foreground images by dual-threshold. All the thresholds were obtained automatically according to the environment. At last, difference images in each layer were fused top-down to detect the interested moving objects, and shadows were removed in HSV space. Background model initialization and update method were based on two assumptions, the first one of which is that background points appear with a larger frequency and the second is that the closer to the current frame, the more likely to represent the real background. The results show that the proposed algorithm can be effectively applied to dynamic background environments and can overcome the effect of illumination changes and shadows. Experiments on several standard image sequences demonstrate that the proposed method has high accuracy, robustness and adaptability. It has lower time complexity and can be applied in real-time detection systems.
Key words: moving object detection; Gaussian pyramid; dynamic background; adaptive threshold
运动目标检测的目的是通过分析视频序列图像提取场景中的运动物体。它是计算机视觉领域的研究重点,是实现智能视频监控和机器人运动目标捕捉、跟踪和识别的基础[1-2]。目前常用的检测方法有:光流法[3]、帧差分法[4]和背景差分法[5-6]。光流法通过计算速度场来区分运动目标和背景,可以在运动场景中捕捉目标,但其计算量大,抗噪性能差,实时性差。帧差分法和背景差分法的基本原理都是用当前帧与参考帧进行差分运算,超过阈值的点为前景。帧差分法的参考帧为其相邻帧,由于两帧间隔短,对环境光照变化不敏感,但对于运动速度慢的物体,会检测出空洞。背景差分的参考帧为无运动目标的背景图像,能够得到比较完整的运动目标信息,当前研究和应用都比较广泛。目前,背景差分法分为参数化方法[7-9]和非参数化方法[10-12]。典型的参数法为混合高斯模型(MOG)[7],它将每个像素用多个高斯分布的加权混合进行建模以适应背景的动态变化,然而,这种模型收敛速度较慢,当运动物体大且速度慢时,检测效果不理想。Li等[10]提出的一种复杂场景下目标检测算法(MM03)是一种非参数法,该算法对差分图像使用了一种全局阈值化方法检测出场景中所有的运动,然后,对这些运动区域进行运动背景的抑制,从而实现前景目标的检测。该算法忽略了像素之间的空间相关性,在场景比较复杂时效果不太理想。背景差分还可以分为像素级和区域级方法,目前大部分算法属于前者,认为各像素间是相互独立的,这种方法在动态背景下效果很差。区域级[13-14]运动目标检测将背景帧和当前帧分成大小相等的像块,并从中提取描述像块的特征,再通过匹配准则将每个块分为背景或目标。该方法可以克服动态背景的影响,然而,这类方法对于目标边界的处理误差较大,而且未考虑在成像过程中点扩散函数的影响。要更准确地检测出运动目标,还需要进行改进。目前,高斯金字塔模型已经开始应用于目标检测与跟踪领域[15-16],对于克服动态背景的影响有显著的效果。本文作者提出一种基于高斯金字塔模型的运动目标检测方法,对原始图像进行高斯金字塔变换,在不同分辨率下进行图像分析,得到不同尺度空间下的差分图像,周围像素的关系通过变换时高斯卷积来体现。在同一分辨率下,又使用高低不同阈值进行差分。最后,从低分辨率到高分辨率层,采用图像融合方案,得到低噪声、目标完整的前景图像。同时提出一种自适应阈值方案,使系统根据环境自动设置高低阈值,避免了人为设置阈值对于不同场景不通用的问题。该方法检测准确度高,速度快,阈值自动获取,具有一定的应用价值。
1 基于高斯金字塔的运动目标检测
在不同尺度观察自然界会表现出不同的形态[17-18],当一个机器视觉系统分析未知场景时,计算机无法预知图像中物体的尺度,因此,需要同时考虑图像在多尺度下的描述。金字塔模型是一种最直观的信号多尺度描述,该模型一般包括2个步骤:首先经过一个低通滤波器进行平滑,然后对这个平滑图像进行抽样或插值,得到一系列尺寸缩小或放大的图像。图1所示为金字塔模型的采样过程。序列中的每一级图像均为其前一级图像低通滤波后作隔行隔列降采样,即
(1)
其中:为第k层高斯金字塔图像;G0为原始图像作为高斯金字塔的低层,为 5×5具有低通特性的窗口函数;h取为高斯密度分布函数,它满足约束条件:归一化性、对称性、奇偶项等贡献性,则窗口函数w(m, n)可表示如下:
(2)
至此,由G0, G1, …, GN构成了高斯金字塔(见图1)。
图1 高斯金字塔的采样过程
Fig.1 Gaussian pyramid sampling process
在不同分辨率下,运动目标检测结果的特征也不一样。在高分辨率下,可以很好地得到目标的细节,但是同时也会有大量的背景噪声,尤其是在动态背景下,噪声干扰很严重。反之,在低分辨率下,几乎不受背景噪声的影响,但得不到目标的结构特征,同时也容易丢掉一些小目标。不同分辨率下的当前帧、背景帧和差分图像如图2所示。图2(a)和(b)所示分别为背景帧和原始当前帧,图2(a)和(b)中右上角图片分别为用高斯金字塔模型采样2次后的背景帧和当前帧。从图2可见:背景中运动的物体有喷泉,喷泉背后远处的公路上有行人和车,还有树叶,但是幅度都比较小,在这个场景中,这些都不是感兴趣的运动目标。在高分辨率图像差分时,以噪声的形态表现出来。如果用一个较低的阈值(图2(a)右上角图片)来差分,动态背景被大量地当作前景检测出来,而较高的阈值(图2(b)右上角图片)会使目标产生空洞。所以,在单一的分辨率下分析动态背景场景效果较差。由于考虑了周围像素的影响,图像的细节部分变模糊了,作差分运算时动态背景不会影响结果,但是,目标的形态特征易丢失。图2(d)中右上角图片为第2层低阈值差分图像F2,2个目标粘连在一起。
根据以上的问题,在多分辨率下进行背景差分,由于在动态背景下,高阈值会丢失目标,而低阈值会引入大量噪声,单一的阈值并不能满足要求。因此,在每个分辨率下,都运用高低2类阈值,得到不同的差分图像,然后将不同分辨率下的高低阈值差分图像进行融合,得到环境噪声小、目标形态完整的前景图像。
1.1 前景检测
基于高斯金字塔模型的目标检测的第1步就是获取不同分辨率下的图像,包括当前图像和背景图像。假设不同分辨率下当前帧为,背景帧为,其中,x和y分别为图像坐标系中的坐标,k为金字塔层数,可以取值为0,1和2,当k取值为0时,当前帧即为由摄像机直接获取的原始图像,而背景帧为在原始分辨率下重建的背景,其他层图像的获取方法见式(1)。原始图像分辨率为M×N,则第1层和第2层图像分辨率分别为M/2×N/2和M/4×N/4。
得到不同分辨率的当前帧与背景帧之后,在相应层进行像素级差分运算。在第0层和第1层,分别会得到高、低2组阈值下的2帧图像,分别为和(k=0, 1),第2层只保留低阈值差分图像。对于差分图像每个通道,都有正、负2个阈值,即,,,,,。在此仅以低阈值为例给出差分图像的求取办法,高阈值差分图像的求取过程相似,仅阈值不同。
图2 不同分辨率下的当前帧、背景帧和差分图像
Fig.2 Current, background and difference images in different resolutions
(3)
(4)
得到各帧差分图像后,进行以下处理:对进行中值滤波,然后用矩形模板作膨胀操作,得到中间图像。首先对得到的图像插入元素全为0的偶数行和偶数列,然后使用高斯核函数进行卷积,其中滤波器先乘以4然后进行插值,所以,输出图像为输入图像的4倍。
(5)
(6)
(7)
接着将辅助图像与第1层的高、低阈值差分图像和进行融合运算,得到,过程见式(8)。
(8)
掩模是由金字塔高层差分图像得到的,故而去掉了由于动态背景引入的噪声,保留了目标的区域,与当前层低阈值差分图像掩模取交集检测运动目标。但高层图像同样也丢失了一些小目标,故对于掩模以外的部分,若当前层高阈值差分图像中检测为背景,则予以召回。
同理,将融合结果进行中值滤波、膨胀操作后得到第1层的中间图像,再向上采样得到第0层的辅助图像,与和用式(8)融合后,滤波、膨胀得到第0层的中间图像,最后进行一次腐蚀操作,完成目标的提取操作过程,得到前景图像,操作流程图及处理效果见图3。
1.2 阈值的动态获取方法
在进行背景像素差分的过程中,阈值是一个很重要的参数,阈值的选取对差分结果有直接的影响。然而,被检测场景的多样性以及同一场景光照变化导致了阈值的复杂性,所以需要一种能够根据给定的当前帧与背景帧特征自动确定阈值的方法。本文提出的双阈值法对于每一帧图像的每个通道,都有2对阈值,以红色通道为例,分别为低阈值,和高阈值,。如图4所示为红色通道(R)的差分直方图,定义为,和是当前帧和背景帧在点处的像素。在该图中,峰值处由于光照的差异,不一定为0。
图3 目标检测流程及效果
Fig.3 Object detection process and effects
经过大量实验表明,该差分直方图的分布接近于高斯分布。因此,两边最接近于均值的拐点即为正负低阈值,对于数字图像,其拐点求法如下:
(9)
均值右边的第1个拐点为,第2个拐点为,左边的第1个拐点为,第2个拐点为。用同样的方法可以求出G和B通道的阈值。
该阈值方案可以克服由于全局光照变化或相机曝光差异导致的图像亮度不一致问题,图5所示为亮度对检测结果的影响。从图5可见:亮度调整之后,在使用同一帧背景图像的情况下,用本方案作差分运算,依然能较准确地检测出运动目标,图像亮度的变化对检测结果影响不大。
图4 当前帧与背景帧红色通道差分直方图
Fig.4 Histogram of red channel between current and background frame
1.3 阴影去除
投射阴影会随着目标运动一起运动,要准确地提取运动目标,去除阴影也非常重要。HSV色彩空间具有较好的颜色感知一致性,当像素被阴影覆盖时,其亮度变化较大,而色度变化较小[19],可以通过式(10)来检测阴影S(x, y):
(10)
式中:IH,IS和IV分别为对应当前帧的HSV分量;BH,BS,BV表示背景帧的HSV分量;τH和τS分别表示色彩、色度阈值。实验中发现,这2个阈值比较难以确定,对于不同的场景差异较大,因此,本文实际用的阴影检测方案为
(11)
对于阴影部分,被阴影覆盖的当前帧区域亮度应该低于相应位置的背景点亮度。为了防止亮度较小的目标(黑色目标)被误检测为阴影,亮度比值应该有下限。同样地,当前帧像素亮度稍低于背景像素时,认为是光照变化或像机曝光量不稳定引起的,从而这样的点不应该被当作阴影处理。因此,,对于不同场景,和取不同的值,即使是同一场景,光照条件发生变化,和也应当改变。目前,尚未有稳定的方法可以得到最佳阈值,在本文实验中,取=0.3,=0.7。
图5 亮度对检测结果的影响
Fig.5 Influence of brightness on detected result
2 背景模型
用背景差分法检测运动目标,背景模型的建立很重要。在一些超市、机场等公共场合下,背景中一直有运动目标,随着时间的推移,背景也会发生变化,如从白天到黑夜光照渐变、背景中物体永久移出或者加入新的静止目标。本文的背景模型初始化和更新方法基于2种假设:(1) 背景点出现的概率较大;(2) 离当前帧越近的点越接近真实背景。
2.1 背景初始化
在开始运动目标检测之前,首先采集N帧图像构成背景初始化的样本空间,N的取值根据环境而定,若环境中运动目标很多,则需要一个较大的值;反之,对于一些目标不常出现的场景,N可以取较小值,本文测试的场景N=500。对于图像中坐标为(x, y)的点,统计样本空间中各帧图像在该点的像素,如图6所示,出现频率最高的像素标记为P_Max。然后寻找像素稳定区域,即对P_Max周围像素频率求和,当该区域内像素频率和S≥N/2时,停止寻找。最后基于假设(2),从第500帧往前寻找,第1个出现在稳定区域内的像素被选作为背景点。图6(a)和(b)分别为Fountain序列坐标(88,95)和(130,65)处像素统计结果,坐标(88,95)处由于有行人走过(150~200帧之间),像素的波动稍大,出现频率最高的像素为133,其中像素为122~144的点在稳定域内。坐标(130,65)处是喷泉,像素虽然有波动,但基本稳定,出现频率最高的像素为80,其中像素为78~82的点在稳定域内。
2.2 背景更新
在系统运行的过程中,需要实时地更新背景,得到与当前帧最匹配的背景图像,减少检测误差,更新方法如下。
(12)
当某一点在上一帧中被认为是前景时,则需要进行更新,若为背景,则使用上一帧图像的像素替换。这种更新方法可以鉴别长时间静止于场景中的目标,也可以检测到背景中由静止变为运动的物体,对于环境光照的变化也有适应性。
图7所示为用该方案在运动目标检测过程中得到的背景图像,下方是与之对应的真实背景,用圆圈标记出的是与真实背景有差异的地方。图7(a)~(c)中树叶、水面、窗帘都因为风的作用在运动,但幅度都较小;图7(d)中左上角为视频显示的时间,也在不停地变化;图7(e)中环境比较稳定,主要是交流电导致光照不稳定。在高斯金字塔高层,由于平滑作用,这些差异对差分结果影响非常小,所以,依然可以得到较好的检测结果。
3 试验结果与分析
将本文提出的算法采用7组标准图[20]进行测试,检测效果定性和定量地与MOG[7]和MM03[10]算法对比。图8所示为实验效果图,从左到右分别为:当前帧、MOG、MM03、本文基于高斯金字塔算法(GP)及真实值。
图6 样本空间中两点的像素分布
Fig.6 Distributions for two different points in sample space
图7 不同场景的背景重建结果
Fig.7 Background reconstruction results for different scenes
图8 不同环境下运动目标检测结果
Fig.8 Experimental results in different environments
表1 3种方法的检测精度对比
Table 1 Comparison of detection precision among three methods
室内场景图(图8(a)和(c))主要受光照变化的影响,场景中有些地方有高光和反射、灯光亮度不稳定,并且背景中总存在运动目标,MM03算法丢失了小的运动目标。图8(b)中日光灯在闪烁,该场景3种方法检测效果都较好。图8(d)~(g)所示目标主要受动态背景的影响,图8(d)~(g)所示目标中窗帘、树叶和水面都随风在摆动,图8(f)所示目标中的喷泉也是动态的。MOG对图8(g)中场景检测效果很差,原因是重建出的背景与当前帧亮度不一样,将背景大范围地当成了目标,而GP算法对亮度变化的克服效果很好。本文提出的GP算法效果最好,受动态背景的影响很小,可以较完整地检测出各目标。MOG方案检测出的目标也较完整,但是,受动态背景影响较大,在正确检测出目标的同时,也引入了大量的背景噪声。MM03方案可以适应动态背景,几乎没有检测出背景噪声,但场景中运动的小目标也被当成背景丢失。
为了定量地分析算法性能,用文献[20]提出的方法来评价检测精度,假设A为检测结果,B为真值,那么检测精度可以用下式评价:
(13)
根据式(13),检测精度为0~1,S越大,精度越高。使用标准测试图序列,将MOG和MM03与本文提出的算法GP进行定量对比,结果如表1所示。
测试结果表明:无论是光照变化还是动态场景,本文提出的算法的检测精度比传统的MOG和MM03算法的检测精度高。
本实验的硬件环境是:Intel i3 处理器,2.93 GHz,集成显卡;测试图像序列的最高分辨率是320×256,对该序列测试1 000帧,系统运行稳定后,3种方法的图像处理平均时间如表2所示。从表2可见:本文提出的方法处理平均时间最短,速率最高,检测速度约为20帧/s,基本满足实时检测要求。
表2 处理时间对比
Table 2 Comparison of computation times ms/帧
4 结论
(1) 将高斯金字塔模型运用于运动目标检测中,有效地克服了动态环境引入的大量噪声,引入高低双阈值差分方案克服了单阈值差分时目标过分割与噪声之间的矛盾。所有阈值可以根据场景由软件自动设置,通用性好。检测结果表明:该方案可以完整地提取运动目标,时间复杂度低,受光照变化、动态背景影响小,具有较高的准确性、鲁棒性和自适应性。
(2) 本文方法的局限性在于:阴影检测使用的一种基本假设,即阴影点一定比背景上该点亮度低,对于大部分场景有效,但是,若背景本身是黑色,则该假设将失效,这有待进一步研究。
参考文献:
[1] Cheung S C S, Kamath C. Robust background subtraction with foreground validation for urban traffic video[J]. Eurasip Journal on Applied Signal Processing, 2005(14): 2330-2340.
[2] Carranza J, Christian M, Magnor M A, et al. Free-viewpoint video of human actors[C]// ACM Transactions on Graphics. San Diego, USA: Association for Computing Machinery, 2003: 569-577.
[3] Dessauer M P, Dua S. Optical flow object detection, motion estimation, and tracking on moving vehicles using wavelet decompositions[C]// Proceedings of SPIE-The International Society for Optical Engineering. Bellingham, USA: SPIE, 2010: 76941J-1-76941J-10.
[4] Ha J E, Lee W H. Foreground objects detection using multiple difference images[J]. Optical Engineering, 2010, 49(4): 047201-1-047201-5.
[5] Jodoin P M, Mignotte M, Konrad J. Statistical background subtraction using spatial cues[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007, 17(12): 1758-1763.
[6] Chiu C C, Ku M Y, Liang L W. A robust object segmentation system using a probability-based background extraction algorithm[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(4): 518-528.
[7] Stauffer C, Grimson W E L. Adaptive background mixture models for real-time tracking[C]// Proceedings of the Computer Society Conference on Computer Vision and Pattern Recognition, 1999. Los Alamitos: IEEE Comput Soc, 1999: 246-252.
[8] Kaewtrakulpong P, Bowden R. An improved adaptive background mixture model for real-time tracking with shadow detection[C]// Proceedings of the 2nd European Workshop on Advanced Video Based Surveillance Systems. Providence, USA: Kluwer Academic Publishers, 2001: 1-5.
[9] Wren C R, Azarbayejani A, Darrell T, et al. Pfinder: real-time tracking of the human body[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7): 780-785.
[10] Li L Y, Huang W M, Gu I Y H, et al. Foreground object detection from videos containing complex background[C]// Proceedings of the ACM International Multimedia Conference and Exhibition. Berkeley, USA: Association for Computing Machinery, 2003: 2-10.
[11] Elgammal A, Harwood D, Davis L S. Non-parametric model for background subtraction[C]// Proceedings of the 6th European Conference on Computer Vision. Dublin, Ireland: Springer, 2000: 751-767.
[12] Kim K, Chalidabhongse T H, Harwood D, et al. Background modeling and subtraction by codebook construction[C]// Proceedings of International Conference on Image Processing. Singapore: IEEE, 2004. 3061-3064.
[13] Chen Y T, Chen C S, Huang C R, et al. Efficient hierarchical method for background subtraction[J]. Pattern Recognition, 2007, 40(10): 2706-2715.
[14] 王欢, 任明武, 杨静宇. 一种区域级运动目标检测方法[J]. 模式识别与人工智能, 2009, 22(5): 689-696.
WANG Huan, REN Mingwu, YANG Jingyu. A Region-level moving object detection method[J]. Pattern Recognition and Artificial Intelligence, 2009, 22(5): 689-696.
[15] 姜靓, 詹永照. 基于高斯金字塔与差分法的多目标检测和跟踪算法[J]. 微电子学与计算机, 2011, 28(11): 129-136.
JIANG Liang, ZHANG Yongzhao. Multiple objects detection and tracking based on background subtraction and Gaussian pyramid[J]. Microelectronics & Computer, 2011, 28(11): 129-136.
[16] 谢伟. 运动目标检测与多分辨率跟踪技术[D]. 成都:电子科技大学通信工程学院, 2007: 11-12.
XIE Wei. Moving target detection and multi-resolution tracking technology[D]. Chengdu: University of Electronic Science and Technology. School of Communication Engineering, 2007: 11-12.
[17] 王永明, 王贵锦. 图像局部不变性特征与描述[M].北京:国防工业出版社,2010: 11-23.
WANG Yongming, WANG Guijin. Image local invariant features and descriptors[M]. Beijing: National Defense Industry Press, 2010: 11-23.
[18] 敬忠良, 肖刚, 李振华. 图像融合: 理论与应用[M].北京:高等教育出版社, 2007: 52-55.
JING Zhongliang, XIAO Gang, LI Zhenhua. Image fusion: Theory and applications[M]. Beijing: Higher Education Press, 2007: 52-55.
[19] Cucchiara R, Grana C, Piccardi M, et al. Detecting moving objects, ghosts, and shadows in video streams[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(10): 1337-1342.
[20] Li L Y, Huang W M, Gu I Y H, et al. Statistical modeling of complex backgrounds for foreground object detection[J]. IEEE Transactions on Image Processing, 2004, 13(11): 1459-1472.
(编辑 赵俊)
收稿日期:2012-07-11;修回日期:2012-10-05
基金项目:国家自然科学基金资助项目(40971219);中央高校基本科研业务费专项资金资助项目(201121202020005)
通信作者:屠礼芬(1986-),女,湖北孝感人,博士研究生,从事图像测量与机器视觉研究;电话:13163200605;E-mail: tulifen_0301@163.com