留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

顾及相机可观测域的地理场景多相机视频浓缩

王飞跃 解愉嘉 毛波

王飞跃, 解愉嘉, 毛波. 顾及相机可观测域的地理场景多相机视频浓缩[J]. 武汉大学学报 ● 信息科学版, 2021, 46(4): 595-600. doi: 10.13203/j.whugis20190281
引用本文: 王飞跃, 解愉嘉, 毛波. 顾及相机可观测域的地理场景多相机视频浓缩[J]. 武汉大学学报 ● 信息科学版, 2021, 46(4): 595-600. doi: 10.13203/j.whugis20190281
WANG Feiyue, XIE Yujia, MAO Bo. Multi-video Synopsis in Geographic Scene Considering Virtual Viewpoint Area of Camera[J]. Geomatics and Information Science of Wuhan University, 2021, 46(4): 595-600. doi: 10.13203/j.whugis20190281
Citation: WANG Feiyue, XIE Yujia, MAO Bo. Multi-video Synopsis in Geographic Scene Considering Virtual Viewpoint Area of Camera[J]. Geomatics and Information Science of Wuhan University, 2021, 46(4): 595-600. doi: 10.13203/j.whugis20190281

顾及相机可观测域的地理场景多相机视频浓缩

doi: 10.13203/j.whugis20190281
基金项目: 

国家自然科学基金 41671457

国家自然科学基金 41771420

国家自然科学基金 41801305

江苏省研究生科研与实践创新计划 KYCX19_1388

详细信息

Multi-video Synopsis in Geographic Scene Considering Virtual Viewpoint Area of Camera

Funds: 

The National Natural Science Foundation of China 41671457

The National Natural Science Foundation of China 41771420

The National Natural Science Foundation of China 41801305

Postgraduate Research and Practice Innovation Program of Jiangsu Province KYCX19_1388

More Information
图(7)
计量
  • 文章访问数:  513
  • HTML全文浏览量:  190
  • PDF下载量:  44
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-06-17
  • 刊出日期:  2021-04-05

顾及相机可观测域的地理场景多相机视频浓缩

doi: 10.13203/j.whugis20190281
    基金项目:

    国家自然科学基金 41671457

    国家自然科学基金 41771420

    国家自然科学基金 41801305

    江苏省研究生科研与实践创新计划 KYCX19_1388

    作者简介:

    王飞跃,硕士生,主要从事视频GIS方向研究。15380941857@163.com

    通讯作者: 解愉嘉,博士,讲师。9120181003@nufe.edu.cn
  • 中图分类号: P208

摘要: 现有的视频浓缩方法无法有效表达视频对象在多相机地理场景中的全局运动情况。针对该问题,提出了顾及相机可观测域的地理场景多相机视频浓缩方法。首先基于视频空间化处理,进行地理场景中相机可观测域分析;其次通过多相机视频对象的数据组织,优选相机可观测组集合,获得虚拟视点;最终实现场景中多相机视频浓缩。实验结果表明,所提方法不仅能够表现视频对象在多个相机镜头中的全局运动情况,而且相比于虚拟场景中的单相机视频浓缩具有更高的时间压缩率。

English Abstract

王飞跃, 解愉嘉, 毛波. 顾及相机可观测域的地理场景多相机视频浓缩[J]. 武汉大学学报 ● 信息科学版, 2021, 46(4): 595-600. doi: 10.13203/j.whugis20190281
引用本文: 王飞跃, 解愉嘉, 毛波. 顾及相机可观测域的地理场景多相机视频浓缩[J]. 武汉大学学报 ● 信息科学版, 2021, 46(4): 595-600. doi: 10.13203/j.whugis20190281
WANG Feiyue, XIE Yujia, MAO Bo. Multi-video Synopsis in Geographic Scene Considering Virtual Viewpoint Area of Camera[J]. Geomatics and Information Science of Wuhan University, 2021, 46(4): 595-600. doi: 10.13203/j.whugis20190281
Citation: WANG Feiyue, XIE Yujia, MAO Bo. Multi-video Synopsis in Geographic Scene Considering Virtual Viewpoint Area of Camera[J]. Geomatics and Information Science of Wuhan University, 2021, 46(4): 595-600. doi: 10.13203/j.whugis20190281
  • 目前,随着视频监控系统的广泛使用与监控探头的高清化升级,每天都有数量不断增长的视频图像被获取,人工处理海量的监控视频数据需要消耗大量的时间与精力,且难以高效、精确地查找视频关键信息。为提高视频信息的检索效率,需要构建视频浓缩[1],通过改进视频对象生成[2-5]或表达时空序列优化[6-9]的方式,将长时间视频段落中的行人、车辆等视频运动对象在时长较短的视频中集中表达[10]

    为了展现大量视频对象在多个相机中的运动情况,需要对多相机视频对象进行视频浓缩[6, 11],通过视频对象跨相机标识,改变视频对象在不同相机出现的次序,快速显示大量视频对象。但现有的多相机浓缩方法未能顾及不同视频相机视域间的地理空间关系[12-13],不能有效描述视频对象在多相机地理场景中的全局运动情况[14]。针对该问题,本文从视频对象与虚拟场景的一体化融合表达出发[15-20],以虚拟地理场景为背景查看多路视频信息,提出顾及相机可观测域的地理场景多相机视频浓缩方法。首先,基于视频空间化处理,进行地理场景中相机可观测域分析;然后,通过多相机视频对象的数据组织,优选相机可观测组集合,获得虚拟视点;最后,实现虚拟场景中多相机视频浓缩。

    • 为实现地理空间中相机视域的生成与视频运动对象地理空间的表达,本文采用单应矩阵法构建了视频-地理场景映射模型。设某一像点的图像空间坐标为q,像点对应的物点地理空间坐标为Q,则qQ可写成齐次坐标的形式:

      $$ \boldsymbol{q} = {\left[ {\begin{array}{*{20}{c}} x & y & 1 \end{array}} \right]^{\rm{T}}} $$ (1)
      $$ \boldsymbol{Q} = {\left[ {\begin{array}{*{20}{c}} X & Y & Z & 1 \end{array}} \right]^{\rm{T}}} $$ (2)

      设映射矩阵为M,则qQ的关系式为:

      $$ \boldsymbol{q} = \boldsymbol{MQ} $$ (3)

      从图像平面到地理空间平面经过缩放、平移和旋转变换,因此可将映射矩阵M分解成:

      $$ \boldsymbol{M} = s \cdot \boldsymbol{W} \cdot \boldsymbol{R} $$ (4)

      式中,s为缩放系数;W为相机平移变换矩阵;R为3×4维旋转变换矩阵。

      $$ \boldsymbol{W} = \left[ {\begin{array}{*{20}{c}} {{f_u}} & 0 & u\\ 0 & {{f_v}} & v\\ 0 & 0 & 1 \end{array}} \right] $$ (5)
      $$ \boldsymbol{R} = \left[ {\begin{array}{*{20}{c}} {{\boldsymbol{r}_1}} & {{\boldsymbol{r}_2}} & {{\boldsymbol{r}_3}} & \boldsymbol{e} \end{array}} \right] $$ (6)

      式中,fufv分别表示透镜物理焦距长度与传感器在每个单元横轴、纵轴方向的尺寸乘积;uv分别图像成像中心相对于主光轴在横轴、纵轴的偏移量;r1r2r3分别表示坐标系在物理空间中X轴、Y轴、Z轴方向的旋转关系;e表示坐标系间的平移关系。

      在使用单应矩阵法时,假设地理空间中相机视域平面为水平面,即假定该平面处Z=0,由此可以将像空间到地理空间的映射关系视为一个平面到另一个平面的映射,为简化计算,将Q中的ZR中表示绕Z轴旋转的r3去除。则单应矩阵M简化为:

      $$ \boldsymbol{M} = s \cdot \left[ {\begin{array}{*{20}{c}} {{f_u}}& 0& u\\ 0& {{f_v}}& v\\ 0& 0 & 1 \end{array}} \right] \cdot \left[ {\begin{array}{*{20}{c}} {{\boldsymbol{r}_1}}& {{\boldsymbol{r}_2}}& \boldsymbol{e} \end{array}} \right] $$ (7)

      根据矩阵M的解,即可求出图像中像素点坐标q对应的地理空间坐标Q

    • 单个相机的可观测区域即相机虚拟视点位置的合理区域,下文统称为相机可观测域,以地理空间水平面中的虚拟视线距离、相机-虚拟视点夹角两个因素作为约束条件,生成虚拟地理场景中的相机可观测域。其中,虚拟视线距离指虚拟视点与视域中某一点的地理空间距离;相机-虚拟视点夹角指以视域中某一点作为角点,计算其与虚拟视点、相机位置点在水平面投影所成夹角。如图 1所示,k号相机的位置为Pkcam,相机的视域四边形PkviewPkview中距离Pkcam最近的线段为Pk, 1Pk, 2,最远线段为Pk, 3Pk, 4。分别以点Pk, 1Pk, 2为角点、以本文设置的角度阈值Tang为偏转角,顺时针与逆时针分别偏转Tang作4条射线,取4条射线在线段Pk, 1Pk, 2靠近相机位置Pkcam一侧的交集区域作为近虚拟视点合理区域Ak, ang图 1(a));分别以点Pk, 3Pk, 4为圆心、以本文设置的距离阈值Tdis为半径,在线段Pk, 3Pk, 4朝向相机位置Pkcam的一侧画半圆,取两个半圆在线段Pk, 1Pk, 2靠近相机位置Pkcam一侧的交集区域作为远虚拟视点合理区域Ak, dis图 1(b));相机可观测域Ak即为Ak, disAk, ang的交集(图 1(c))。

      图  1  相机可观测域示意图

      Figure 1.  Virtual Viewpoint Area of Camera

      对于任意相机组,分别为每个相机构建其对应的相机可观测域,若任意选择的数个相机可观测域交集不为空,则可将这些相机记为一个观测组,被并入观测组的相机不再进行分析。包含所有相机的多个观测组构成一个相机可观测组集合,在距离阈值与角度阈值一定时,所有相机可能构成多个可观测组集合。

    • 本文采用时空管道[1]作为基本描述单元,对出现在多个相机镜头中的单个视频对象图像与轨迹信息进行一体化描述。设L为相机总数,第k号相机中有Nk个视频对象,每个视频对象的时空管道为Ck, i,则L路相机中所有Ck, i构成了多相机视频对象的总集合OOCk, i的表达式如下:

      $$ \begin{array}{c} O = \left\{ {{C_{k, i}}} \right\}, {C_{k, i}} = \left\{ {{I_{k, i, j}}, {P_{k, i, j}}} \right\}, k = 1, 2 \cdots L, i = \\ 1, 2 \cdots {N_k}, j = 1, 2 \cdots n \end{array} $$ (8)

      式中,k表示相机号;Ik, i, j表示第k个相机中第i个视频对象在第j个视频帧中的子图;Pk, i, j表示Ik, i, j对应的地理空间位置,通过将Ik, i, j代入§1.1中的视频-地理场景映射模型求得;n为视频对象出现在某个相机视频中的帧数。

      经视频对象的跨相机关联分析,归并单相机视频对象时空管道,获得多相机视频对象时空管道,实现多相机视频对象的关联组织。Cm表示第m个视频对象在监控视频网络中的全局时空管道,经过数据重组后,OCm的表达式分别为:

      $$ O = \left\{ {{C_m}} \right\}\;\;\left( {m = 1, 2 \cdots E, E \le \sum\limits_{k = 1}^L {{N_k}} } \right) $$ (9)
      $$ {C_m} = \left\{ {{C_{{k_1}, m}}, {C_{{k_2}, m}} \cdots {C_{{k_l}, m}}} \right\}, {k_1}, {k_2} \cdots {k_l} \in \left( {1, 2 \cdots L} \right) $$ (10)

      式中,E表示跨相机视频对象归并后的视频对象总数;$ \sum\limits_{k = 1}^L {{N_k}} $表示跨相机视频对象归并前的视频对象总数;$ {C_{{k_l}, m}} $表示第m个视频对象在相机号为kl相机中的时空管道子序列。

    • 基于多相机视频对象数据组织结果,对虚拟地理场景中每一种相机可观测域的组合,本文设置Svalue作为评分指标,计算式为:

      $$ {S_{{\rm{value}}}} = \alpha \frac{{{n_c} - {n_v}}}{{{n_c}}} + \left( {1 - \alpha } \right)\frac{{\sum\limits_{i = 1}^E {\left( {1/{m_i}} \right)} }}{E} $$ (11)

      式中,α表示权值系数,用来平衡多相机集合细分程度与视频对象信息分割程度的关系,0 < α < 1;nc表示相机总数;nv表示相机可观测域组合中虚拟视点个数;mi表示每个视频对象所关联表达的虚拟视点个数;$ \frac{{{n_c} - {n_v}}}{{{n_c}}} $表示虚拟视点相对于相机总数的缩减比率,其值越大,说明相机组被细分的程度越低,越能以较少的虚拟视点同步表达多个相机的视频内容;$ \frac{{\sum\limits_{i = 1}^E {\left( {1/{m_i}} \right)} }}{E} $表示出现在多个相机中的相同视频对象被分割到不同虚拟视点表达的情况,其值越大,说明每个视频对象信息被割裂表达的程度越低,越能以尽量少的虚拟视点完整表达视频对象在多个相机中的运动情况。在距离阈值与角度阈值一定时,通过界定α,计算当前所有相机可观测集合的Svalue值,取最大值作为相机组合选取结果,进行多相机视频浓缩表达。

    • 在相机显示组合选定的条件下,以每个相机组可观测域的中心作为虚拟视点,进行多相机视频对象浓缩。设当前相机组合下,查看所有L个相机的视频对象共需要D个虚拟视点(DL),设置显示视频对象子图的帧率为f,添加视频对象的时间间隔为t

      具体对于第d个虚拟视点(dD),首先显示第一个出现的运动对象C0在地理空间中的轨迹,同时标识该视频对象在不同相机间出现的先后顺序;然后根据f对视频对象子图进行筛选,将筛选出的视频对象子图按照比例PwPh缩放,计算式为:

      $$ \left\{ \begin{array}{l} {P_w} = \overline w /\overline W \\ {P_h} = \overline h /\overline H \end{array} \right. $$ (12)

      式中,wh分别表示视频对象子图平均长、宽;WH分别表示视频对象子图映射到地理场景后的平均长、宽。根据视频对象对应在虚拟地理场景中的坐标展示子图,实现视频对象的展示与更新。最后,在t, 2tnt时刻,分别添加视频对象C1, C2Cn,动态表达于三维场景模型中,实现多相机视频对象的浓缩表达。

      此外,由于相机视域存在重叠,使得同一个视频对象可能被多个相机捕获,从而导致某个时间段内视频对象子图被重复显示,本文通过对相机间重叠视域的处理,合理选择对应相机的视频对象子图。如图 2所示,相机a和相机b的视域分别为AB,二者存在视域重叠区域C,对于通过区域C的视频对象,设某时刻相机a、相机b的位置与该视频对象轨迹点及虚拟视点V的夹角分别为αβ,如果αβ,则使用相机a获取的视频对象子图,否则使用相机b获取的视频对象子图。

      图  2  相机间重叠视域处理

      Figure 2.  Processing of Overlapped View Areas Between Cameras

    • DukeMTMC数据集是一个对视频对象进行大规模标记的多摄像头跟踪数据集,提供了8个摄像机同步记录的高清视频数据和2 000多个视频对象的手工标注信息,同时还包括相机校正参数和视频对象对应的实际地理空间坐标。本文实验选用了DukeMTMC数据集中16:25-17:15共50 min的数据。为了分析地理场景中多相机空间位置及其视域的拓扑关系,需要对现实场景进行虚拟地理场景建模,得到三维空间中多相机视域空间分布如图 3所示,8路相机视频的背景图像如图 4所示。

      图  3  多相机视域空间分布图

      Figure 3.  Spatial Distribution of Multiple Cameras

      图  4  8路相机视频的背景图像

      Figure 4.  Background Images of 8 Camera Videos

      在包含多个相机的虚拟地理场景中,构建单相机可观测域,通过调节TdisTang,对多个相机可观测域求交集获取多相机可观测域。将虚拟地理空间坐标投影到平面Z=0,并设置Tdis=100,Tang=60°得到多个相机可观测域的空间分布情况,如图 5所示,其中实心点代表相机位置,填充多边形代表相机的视域,虚线代表相机可观测域,8种颜色分别对应8个相机。

      图  5  距离和角度阈值作用下的相机可观测域

      Figure 5.  Virtual Viewpoint Areas of Multiple Cameras Under Thresholds of Distance and Angle

      通过比较Svalue,选用对应TdisTang参数下生成的相机组最优观测集合,实现多相机视频浓缩。基于其中一组最优观测集合,获得虚拟地理场景中多相机视频浓缩可视化表达,如图 6所示。可以看出,相机1、2、3、5、8号中的视频对象被同步显示,且同时表示出了相机盲区间的预测轨迹,实现了多路视频信息同步表达与视频对象运动全局描述。

      图  6  虚拟地理场景中多相机视频浓缩可视化表达

      Figure 6.  Visual Expression of Multi-Camera Video Synopsis in Virtual Geographic Scene

      为分析上述视频浓缩过程中的视频播放时长的缩减性能,本文设置浓缩表达的视频帧数与原始视频帧数的比值为帧压缩率η,用于考查不同参数作用下视频浓缩时长的缩减效果,η越小说明视频浓缩表达时长越短,时间压缩性能越好。η的计算式为:

      $$ \eta {\rm{ = }}\sum\limits_{d = 1}^D {\left[ {\left( {{n_d} - 1} \right)t + \max \left( {{f_d}} \right)} \right]/F} $$ (13)

      式中,dn表示多相机视频对象归并后第d个虚拟视点范围内的视频对象总数;max(fd)表示当前虚拟视点中单个视频对象帧数的最大值;F表示相机组原始视频的帧数总和。

      t=50,计算η作为考查不同参数作用下视频浓缩时长缩减效果的依据。另外,将未经视频对象跨相机识别处理、单相机视频对象独立表达时的视频浓缩帧压缩率记为η0,经计算得到η0=0.138 5。最优可观测集合条件下的视频帧压缩率如图 7所示。通过图 7η的数值区间与η0的大小比较可以看出,本文提出的视频浓缩方法相比于单相机视频对象独立表达的视频浓缩方法具有更优的帧压缩率,时长压缩性能更好。当Tang一定时,η随着Tdis的增大而减小,当Tdis一定时,η也随着Tang的增大而减小,由此可知,当TangTdis越大时,视频浓缩的时长缩减性能越好。

      图  7  最优可观测集合条件下的视频帧压缩率

      Figure 7.  Video Frame Compression Rates Under Optimal Observable Set of Cameras

    • 本文针对现有的视频浓缩方法无法有效表达视频对象在多相机场景中全局运动情况的问题,提出了顾及相机可观测域的地理场景多相机视频浓缩方法,实现地理场景中多相机视频对象快速且时空关联表达。实验结果表明,本文方法不仅能够表现视频对象在多个相机场景中的全局运动情况,而且相比于虚拟场景中单相机视频浓缩具有更高的时间压缩率。

      本文主要贡献在于:(1)使用视频浓缩的方式,提升虚拟地理场景中多相机视频对象表达效率。(2)构建地理场景中相机可观测域,生成多相机可观测集合,为多相机视频对象全局运动描述与视频浓缩构建基础。(3)构建相机可观测集合优选模型,减少查看多像机视频对象所需的虚拟视点总数,并提升视频对象全局运动描述的完整度。

      本文研究的不足之处在于地理场景单一、数据量相对较小,后续将针对开放型复杂地理场景、大规模相机视频数量开展研究,测试并改进所提方法。

参考文献 (20)

目录

    /

    返回文章
    返回