留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于时空立方体的人群异常行为检测与定位

胡学敏 余进 邓重阳 宋昇 陈钦

胡学敏, 余进, 邓重阳, 宋昇, 陈钦. 基于时空立方体的人群异常行为检测与定位[J]. 武汉大学学报 ● 信息科学版, 2019, 44(10): 1530-1537. doi: 10.13203/j.whugis20170424
引用本文: 胡学敏, 余进, 邓重阳, 宋昇, 陈钦. 基于时空立方体的人群异常行为检测与定位[J]. 武汉大学学报 ● 信息科学版, 2019, 44(10): 1530-1537. doi: 10.13203/j.whugis20170424
HU Xuemin, YU Jin, DENG Chongyang, SONG Sheng, CHEN Qin. Abnormal Crowd Behavior Detection and Location Based on Spatial-temporal Cube[J]. Geomatics and Information Science of Wuhan University, 2019, 44(10): 1530-1537. doi: 10.13203/j.whugis20170424
Citation: HU Xuemin, YU Jin, DENG Chongyang, SONG Sheng, CHEN Qin. Abnormal Crowd Behavior Detection and Location Based on Spatial-temporal Cube[J]. Geomatics and Information Science of Wuhan University, 2019, 44(10): 1530-1537. doi: 10.13203/j.whugis20170424

基于时空立方体的人群异常行为检测与定位

doi: 10.13203/j.whugis20170424
基金项目: 

国家自然科学基金青年基金 61806076

湖北省自然科学基金青年项目 2018CFB158

湖北省大学生创新创业训练计划基金 201710512049

详细信息
    作者简介:

    胡学敏, 博士, 副教授, 主要从事图像处理和计算机视觉的研究。huxuemin2003@163.com

  • 中图分类号: TP391.4;P208

Abnormal Crowd Behavior Detection and Location Based on Spatial-temporal Cube

Funds: 

The National Natural Science Foundation of China 61806076

the Natural Science Foundation of Hubei Province 2018CFB158

the Undergraduate Innovation Training Foundation of Hubei Province 201710512049

More Information
    Author Bio:

    HU Xuemin, PhD, associate professor, specializes on image processing and computer vision. E-mail:huxuemin2003@163.com

图(10) / 表(3)
计量
  • 文章访问数:  947
  • HTML全文浏览量:  91
  • PDF下载量:  176
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-10-13
  • 刊出日期:  2019-10-05

基于时空立方体的人群异常行为检测与定位

doi: 10.13203/j.whugis20170424
    基金项目:

    国家自然科学基金青年基金 61806076

    湖北省自然科学基金青年项目 2018CFB158

    湖北省大学生创新创业训练计划基金 201710512049

    作者简介:

    胡学敏, 博士, 副教授, 主要从事图像处理和计算机视觉的研究。huxuemin2003@163.com

  • 中图分类号: TP391.4;P208

摘要: 针对视频监控系统中人群异常行为检测准确率低的问题,提出了一种基于时空立方体的人群异常行为检测与定位方法。首先利用光流法计算等间距采样的特征点光流场,然后根据光流场计算特征点的运动速度、方向和方向熵3个特征量,并分别将其统计直方图投影到对应的三维立体空间中,构建描述人群行为的时空立方体特征。同时,将图像分成多个子区域,并计算各子区域的时空立方体特征;设计基于最近邻分类和支持向量机的级联分类器,完成人群异常行为的检测与定位。结果表明,该方法比现有方法能更准确地检测视频中的异常人群。

English Abstract

胡学敏, 余进, 邓重阳, 宋昇, 陈钦. 基于时空立方体的人群异常行为检测与定位[J]. 武汉大学学报 ● 信息科学版, 2019, 44(10): 1530-1537. doi: 10.13203/j.whugis20170424
引用本文: 胡学敏, 余进, 邓重阳, 宋昇, 陈钦. 基于时空立方体的人群异常行为检测与定位[J]. 武汉大学学报 ● 信息科学版, 2019, 44(10): 1530-1537. doi: 10.13203/j.whugis20170424
HU Xuemin, YU Jin, DENG Chongyang, SONG Sheng, CHEN Qin. Abnormal Crowd Behavior Detection and Location Based on Spatial-temporal Cube[J]. Geomatics and Information Science of Wuhan University, 2019, 44(10): 1530-1537. doi: 10.13203/j.whugis20170424
Citation: HU Xuemin, YU Jin, DENG Chongyang, SONG Sheng, CHEN Qin. Abnormal Crowd Behavior Detection and Location Based on Spatial-temporal Cube[J]. Geomatics and Information Science of Wuhan University, 2019, 44(10): 1530-1537. doi: 10.13203/j.whugis20170424
  • 随着公共场所人群的安全问题越来越受到重视,视频监控已逐渐成为计算机视觉领域的研究热点。传统视频监控是由工作人员实时查看网络摄像机的画面完成,这种方法不仅费时费力,而且效率不高。因此,研究实时检测和定位异常人群的智能视频监控系统具有重要的研究意义和商业价值。

    目前,国内外研究人员在人群异常检测方面做了大量的工作,并且取得了一定的成果。通常情况下,人们将没有遵守某一场景中要求的个人或群体定义为该场景下的异常人群,如在人行道中行驶的机动车、在场景出口的位置进入场景的行人等,这些异常人群均是由人工根据不同的场景进行定义。目前有关人群行为分析的主流方法大致分为两大类。一类是根据人群总体运动方向与趋势来区分人群是否异常的全局异常检测。Chen等[1]以孤立区域为顶点,将人群用图表示,并使用局部特征和全局特征联合检测人群中是否存在异常的指标;Wu等[2]提出检测人群逃生行为的贝叶斯框架;Su等[3]利用时空粘性流体场来识别大规模人群行为;Solmaz等[4]通过对动态系统稳定性的分析来判断人群异常行为。这类方法处理高密度人群行为异常可以得到准确的结果,但在中低密度人群行为异常检测中无法达到理想的效果,且未实现异常人群的定位。另一类是局部异常行为检测方法,这类方法往往运用了人群动态模型,如社会力模型、元胞自动机、直方图模型以及视觉区域模型,如动态纹理、多元学习等[5]。Raghavendra等[6-7]结合粒子群优化方法和社会力模型来实现人群异常行为的检测;Chaudhry等[8]通过对定向光流直方图的分类识别人群行为;Colque等[9-10]利用基于光流信息的直方图模型检测异常行为;Li等[11]提出一种基于动态纹理模型的时空异常联合检测器;Thida等[12]利用时空拉格朗日特征映射法构造了一个基于多元学习的框架来检测异常行为。此类方法能有效地检测和定位异常人群,但涉及的参数过多或者模型建立较复杂,并且准确率不高。

    针对现有人群异常行为检测方法的准确率不高,检测模型过于复杂等问题,本文提出了一种新的基于时空立方体(spatial-temporal cube,STC)的人群异常行为检测和定位方法。如图 1所示,该方法先采用等距采样法获取视频帧中的特征点,然后通过Lucas-Kanade光流法计算对应粒子点的运动速度和方向。另外,本文还提出一种方向熵的计算方法,并与运动速度和方向一起作为描述人群的特征量。为了准确定位人群异常行为的区域,将视频帧划分为若干个非重叠的区域,并将各个子区域中特征点的运动速度、方向和熵值的直方图投影到由速度、方向、方向熵(velocity-orientation-entropy, V-O-E)构成的三维立体空间中,构建描述人群行为的时空立方体特征。最后,设计基于最近邻分类(nearest neighbor, NN)和支持向量机(support vector machine, SVM)的级联分类器,先后利用基于NN设计的初级分类器和基于SVM的次级分类器对时空立方体特征进行分类,从而实现人群异常行为的检测与定位。实验结果表明,本文方法能有效检测和定位异常人群,与现有方法相比具有更高的准确率。

    图  1  基于STC的人群异常行为检测和定位流程图(v:运动速度;o:运动方向;e:方向熵; S′a:候选异常样本点;Sn:正常样本点)

    Figure 1.  Flowchart of Abnormal Crowd Behavior Detection and Location Based on STC (v: Velocity; o: Orientation; e: Orientation Entropy; S′a: Candidates of Abnormal Sample Points; Sn: Normal Sample Points)

    • 本文提出了用以检测和定位人群异常行为的STC特征,该特征以光流法提取的运动信息为基础,将运动速度、方向和方向熵3种运动特征量的直方图投影到V-O-E三维立体空间中而形成。

    • 人群的行为一般由其运动信息表达,因此本文在描述人群运动特征时首先计算整张图像的光流场。为了减小视频中噪声对运动特征的影响,在计算光流场之前对原始图像进行高斯滤波处理。为了在不遗漏运动信息的前提下减小计算量、提高算法的实时性,本文采用等距采样法在图像中选取特征点,并利用Lucas-Kanade光流法计算特征点的光流场[13]。采样距离根据实际需要选取,如图 2(a)中白点所示。假设视频第k(kk)帧中某个特征点的坐标为(x, y),在kk(本文中Δk=2)帧中,该特征点坐标为(xx, yy),则在第k帧中该特征点的运动速度v(像素/s)和方向o(rad)的计算式为:

      $$ v(x, y, k)=\sqrt{\Delta x^{2}+\Delta y^{2}} / \frac{\Delta k}{f} $$ (1)
      $$ o(x, y, k)=\arctan (\Delta x / \Delta y) $$ (2)

      图  2  运动特征量示意图

      Figure 2.  Chart of Movement Features

      其中,f为原始视频的帧率。计算得到特征点的运动速度的大小和方向分别如图 2(b)中线段的长短和方向所示。为了更直观表示人群运动速度的大小和方向,本文将特征点的运动速度和方向映射为8位灰阶图,并利用双线性插值的方法将映射图的尺寸扩充到与原始图像相等,分别由图 2(c)2(d)表示。其中黑色越深,在图 2(c)中表示运动速度越快,在图 2(d)中表示方向角度越大。可见,利用光流法提取的运动速度和方向信息能够有效表征人群的运动。

    • 正常情况下,人群运动方向比较稳定;异常情况下,即受到外界环境的刺激后,人群会突然向四周散开或者集体跑向某一方向,因此人群的运动状态还表现为运动方向的混乱程度。熵是一种有效描述信息随机性的参量,因此本文提出方向熵这一特征量来表示当前图像中人群运动方向的混乱程度。针对图像中每个特征点,以特征点(x, y, k)为中心的局部d×d(本文中d=3)区域内所有像素点作为计算对象,计算该点的方向熵e(x, y, k)为:

      $$ \left\{ {\begin{array}{*{20}{l}} {\left. {{U_o}(t) = \frac{1}{{d \times d}}\sum\limits_{i = 1}^{d \times d} \delta (t - \left\lfloor {\frac{{2 \times o\left( {{x_i}, {y_i}, k} \right)}}{\pi }} \right\rfloor } \right)}\\ {e\left( {{x_i}, {y_i}, k} \right) = - \sum\limits_{i = 0}^{{N_o} - 1} {{U_o}} (t)\log \left[ {{U_o}(t)} \right]} \end{array}} \right. $$ (3)

      式中,δ表示冲激函数;$\left\lfloor {} \right\rfloor $为向下取整符号;Uo为局部区域中运动方向的统计直方图。

      图 3(a)为原始图像,将计算得到的方向熵映射成灰阶图,如图 3(b)所示。图 3中人群运动方向越混乱的区域,其方向熵值越大,对应图 3(b)中表现为灰度值越暗。

      图  3  原始图像和熵值映射图

      Figure 3.  Original Image and Entropy Figure

      为了定位视频帧中的异常人群区域,本文采用分块法将原始视频帧分成大小为w×w(取值与监控相机离人群的距离有关)的多个非重叠的图像子区域,计算出每一个子区域内特征点的运动速度、方向和方向熵的值,并将对应特征量的值分别划分为NvNoNe个区间。基于多维直方图表示的思路,将3种特征量分别投影到V-O-E三维立体空间,综合计算运动速度、方向和方向熵的三维立体直方图。在算法实现上,本文以一个Nv×No×Ne的三维数组表示一个立体直方图,数组中的每一个数表示运动速度、方向和方向熵同时满足对应区间的像素点的个数。如图 4所示,图中央的长条网格为对应每个特征量的一维统计直方图,右边立方体中每一个小方块的取值表示在图像局部子区域中,像素点的运动速度、方向和方向熵3个特征量的取值落在对应三维区间的个数。因此,STC特征即图像局部子区域中像素点的特征量在V-O-E三维立体空间中的投影。根据视频中特征点3种特征量的取值范围,综合考虑异常区域所占比例及算法运算时间,本文将速度区间Hv划分为{[0, 20), [20, 40), [40, 60), [60, 100), [100, ∞)},方向区间Ho划分为{[0, 90°), [90°, 180°), [180°, 270°), [270°, 360°)},方向熵区间He划分为{[0, 0.5), [0.5, 1.0), [1.0, 1.5), [1.5, ∞)},即Nv=5,No=Ne=4。

      图  4  STC特征提取

      Figure 4.  STC Feature Extraction

      由于运动速度和方向能描述人群行为在时间上的动态特征,方向熵能描述人群当前混乱程度的空间特征,且这3种特征量以三维立体直方图的形式表示,因此本文称之为时空立方体特征。时空立方体特征融合了人群的运动速度、运动方向和方向熵3种特征量,能描述区域内人群的运动速度、方向及混乱程度,表示区域内人群行为的时间和空间状态,因此STC是一种能够有效衡量人群中是否存在异常的特征描述子。

    • 为了定位异常人群区域,本文将原始视频帧划分成了多个子区域,并对每个子区域进行异常行为检测。由于子区域数量较多,如果对每一个子区域都采用传统分类器进行分类,势必会降低系统的实时性。为了提高算法的实时性和减小误检率,本文采用基于最近邻分类设计的分类器和支持向量机两种分类器组合设计级联分类器对STC特征进行分类。将基于NN设计的分类算法作为初级分类器,用来过滤当前视频帧中的大部分正常区域,得到异常人群的候选区域,然后再将候选区域对应的STC特征用SVM作为次级分类器进一步分类,从而完成对异常区域的检测与定位。

    • 由于最近邻分类算法具有简单、计算量小的特点[9, 14],因此很适合作为初级分类器进行候选区域的筛选。在人群异常行为检测阶段,本文根据当前视频帧中每一个子区域对应的STC特征,设计了基于NN的初级分类算法,选出潜在的异常区域。

      每个子区域对应的STC可以看作是一个Nv×No×Ne维空间中的点,本文预先选取n(本文中n=100)个具有代表性的正常人群样本作为参照标准来筛选异常人群的候选区域。首先通过算法选取与当前帧子区域所对应的STC特征最相似的正常样本特征,并计算两者之间的欧氏距离,然后在当前帧计算得到的所有距离中,取出K%(本文中K=30,为经验值)个最大距离所对应的子区域,作为异常人群的候选区域,送入下一级分类器中进行分类,其中样本空间点之间的欧氏距离D的计算公式为:

      $$ D = \sqrt {\sum\limits_{x = 0}^{{N_v} - 1} {\sum\limits_{y = 0}^{{N_o} - 1} {\sum\limits_{z = 0}^{{N_e} - 1} {{{(s[x][y][z] - {s_n}[x][y][z])}^2}} } } } $$ (4)

      式中,s[x][y][z]和sn[x][y][z]分别为当前测试样本和正常人群参照样本的STC在特征空间点(x, y, z)的取值。初级分类器算法的分类过程如图 5所示,其中SnS′a分别为初级分类器筛选出的正常区域和候选异常区域的集合,S为测试样本,Sn是正常人群的参照样本。图 6(a)6(b)为初级分类器对异常人群区域的分类效果,其中白色方框表示候选异常区域。可以看出,本文基于NN设计的初级分类器能有效筛选出异常人群区域。

      图  5  初级分类示意图

      Figure 5.  Primary Classification

      图  6  人群异常候选区域

      Figure 6.  Candidate Regions of the Abnormal Crowd

    • 在获取人群异常行为的候选区域之后,需要对候选区域进行确认,从而检测真正的异常人群区域。SVM是一种经典的分类器,能在训练样本数量较少的情况很好地处理线性不可分数据[15],因此本文使用SVM对候选区域进行确认处理。如图 7所示,视频帧中每一个子区域所对应的STC特征看作一个样本,本文根据不同的数据集,分别采集一定数量的正常和异常人群样本。由于本文提出的STC大小为5×4×4,故将每一个样本中的数据展开成1×80的一维特征向量,样本特征向量与其对应的标注信息分别作为训练SVM的两组输入数据训练次级分类器;测试时,将初级分类器输出的候选异常区域对应的STC展开成1×80的一维特征向量作为测试样本,输入SVM检测模型中,根据决策函数结果进行分类[16],实现异常区域的检测和定位。图 8为基于SVM的二次分类结果示意图,黑色方框区域为最终确认的异常人群区域。从图 8中可以看出,SVM分类器能够有效确认异常区域,完成人群异常行为的检测和定位。

      图  7  SVM分类流程图

      Figure 7.  Flowchart of SVM Classification

      图  8  异常人群区域确认结果

      Figure 8.  Confirming Results of Abnormal Crowd

    • 本文实验所用硬件平台为Intel Core i3-6006U(双核,2 GHz)CPU,8 GB内存,软件平台为PyCharm 2017和Python语言。本文中实验数据包括公开数据集圣地亚哥加利福尼亚大学(University of California, San Diego, UCSD)和Subway数据集。UCSD数据集是美国加利福尼亚州统计学习视觉计算实验室提供的公开数据集[17],数据集中包含两个场景,场景一(ped1)和场景二(ped2)的分辨率分别为238×158像素和360×240像素,帧率分别为7帧/s和25帧/s,其中正常行为表现为人群随意的走动,异常行为包括玩滑板的男孩、坐轮椅的老人、骑自行车的路人等。Subway数据集是由Adam等人提供的一个异常行人检测数据集[18],数据集中包括地铁入口和地铁出口两个视频,视频分辨率为512×384像素,帧率为25帧/s,入口视频和出口视频时长分别为96 min和43 min,其中出现的异常为不投币进入地铁入口、跳入地铁入口、跳出地铁入口及进入地铁出口。本文综合考虑数据集提供的异常行为真值图像与人群在视频中的行为表现,采用人工标定的方式制作数据集真值,异常行为涉及到的视频帧子区域均标定为异常,其他区域标定为正常。

      在UCSD数据集场景一和场景二中,由于编号为test014和test011的视频包含了多种正常和异常的人群行为,因此分别选取test014和test011视频作为训练样本,其余视频作为测试样本,视频帧的分块大小为30×30像素,训练SVM分类器使用的正常样本数量分别为978和1 322,异常样本数量分别为489和661。类似地,为了让训练样本尽可能包含多种类型的异常行为,在Subway数据集入口和出口视频中,分别选取40~60 min和25~35 min的一段视频作为训练样本,其余视频作为测试样本,视频帧的分块大小为60×60像素,训练SVM分类器使用的正常样本数量分别为6 740和1 800,异常样本数量分别为3 370和900。对于视频中的边缘区域,由于包含的有用信息很少,故本文中将其忽略。

      图 9(a)~9(d)图 10(a)~10(d)分别为UCSD和Subway数据集中的测试结果,其中黑色方框为异常人群区域的检测和定位结果。为了定量描述实验结果,将实验结果绘制成受试者工作特性曲线(receiver operating curve, ROC),并计算出ROC曲线下的面积(area under the curve, AUC)与等错误率(equal error rate, EER)[11],如图 9 (e)图 10 (e)所示。另外,本文将实验结果与经典方法定向光流直方图(histogram of oriented optical flow, HOOF)[8]、光流方向和大小直方图(histograms of optical flow orientation and magnitude, HOFM)[9]、光流方向、大小和熵直方图(histograms of optical flow orientation and magnitude and entropy, HOFME)[10]、动态纹理的时间混合(temporal mixture of dynamic textures, MDT-temporal)[11]和动态纹理的空间混合(spatial mixture of dynamic textures, MDT-spatial)[11]相比较,其对比结果如表 1表 2所示。为了验证本文提出的级联分类器的优势,将基于级联分类器的实验结果与仅使用SVM分类器的测试结果进行对比,结果如表 3所示。

      图  9  UCSD数据集测试结果

      Figure 9.  Experimental Results in the UCSD Dataset

      图  10  Subway数据集测试结果

      Figure 10.  Experimental Results in the Subway Dataset

      表 1  UCSD数据集测试结果对比

      Table 1.  Contrastive Results in the UCSD Dataset

      方法 UCSD场景一 UCSD场景二
      AUC EER/% AUC EER/%
      HOOF 0.690 36.4 0.820 25.9
      HOFM 0.715 33.3 0.899 19.0
      HOFME 0.849 17.8 0.816 22.8
      MDT-temporal 0.825 22.9 0.765 27.9
      MDT-spatial 0.600 43.8 0.750 28.7
      本文方法 0.900 16.8 0.962 10.0

      表 2  Subway数据集测试结果对比

      Table 2.  Contrastive Results in the Subway Dataset

      方法 地铁入口 地铁出口
      AUC EER/% AUC EER/%
      HOOF 0.774 24.4 0.800 25.1
      HOFM 0.815 23.5 0.845 18.8
      HOFME 0.816 22.8 0.849 17.8
      MDT-temporal 0.889 18.6 0.875 17.9
      MDT-spatial 0.682 37.0 0.670 34.1
      本文方法 0.867 16.0 0.831 22.7

      表 3  SVM与级联分类器测试结果对比

      Table 3.  Contrastive Results Between SVM and the Cascade Classifier

      场景 方法 时间/s 误检率 AUC
      UCSD场景一 SVM分类 0.218 0.066 0.843
      级联分类 0.214 0.048 0.900
      UCSD场景二 SVM分类 0.581 0.024 0.951
      级联分类 0.578 0.022 0.962
      Subway入口 SVM分类 1.119 0.081 0.839
      级联分类 1.088 0.075 0.867
      Subway出口 SVM分类 1.124 0.064 0.789
      级联分类 1.096 0.039 0.831

      依据上述实验结果,可以得出如下结论:

      1) 本文提出的时空立方体能准确地反映图像的运动特征。STC特征综合了图像区域中特征点的运动速度、方向和方向熵3运动特征量,有效描述了人群在时间和空间上的运动行为特征。从图 9图 10中可以看出,本文方法能准确地检测和定位图中的异常人群,两个数据集整体检测结果的AUC的值都超过了0.84,其中在UCSD数据集上的整体AUC的值甚至超过了0.95。

      2) 时空立方体能有效地描述不同类型的异常场景。UCSD和Subway数据集中出现的异常包括自行车、货车、跨栏杆及进地铁出口等,这些异常均能被本文的方法检测出来,如图 9(a)9(c)中的自行车、图 9(b)中的货车、图 9(d)中的滑板、图 10(a)中的跨栏杆、图 10(b)中的出地铁入口、图 10(c)10(d)中的进地铁出口。

      3) 本文提出的级联分类器有效地提高了异常人群检测与定位的准确率。如表 3所示,本文提出基于NN和SVM的级联分类器,经过设计的初级分类算法能有效筛选出异常候选区域,提高算法的实时性的同时,降低了检测过程中出现误检的概率,较大程度地提高了实验结果的准确率。如表 1表 2所示,本文方法在UCSD数据集上的AUC的值远高于对比方法,并且在UCSD数据集中各个场景及Subway数据集地铁入口场景下的EER值均比其他方法低。

    • 本文提出了一种基于时空立方体特征的人群异常行为检测和定位的方法。在该方法中,首先利用光流法计算人群的运动信息,然后提出一种综合运动速度、方向和方向熵3种特征量的时空立方体特征来描述人群的行为。最后,设计基于NN和SVM级联的分类器来检测和定位人群异常行为的区域。本文在UCSD和Subway数据集分别做了测试,并对比了几种现有经典的人群异常行为检测方法。实验结果表明,本文方法具有更高的准确率。另外,本文方法也存在一定的局限性,虽然能有效检测出多种人群行为是否异常,但未能识别是何种异常。同时,本文算法在运算速度上仍有待提升。因此,未来的工作将着力于不同异常行为的分类问题及算法优化方面。

参考文献 (18)

目录

    /

    返回文章
    返回