留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

改进Yolo-v3的视频图像火焰实时检测算法

赵媛媛 朱军 谢亚坤 李维炼 郭煜坤

赵媛媛, 朱军, 谢亚坤, 李维炼, 郭煜坤. 改进Yolo-v3的视频图像火焰实时检测算法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(3): 326-334. doi: 10.13203/j.whugis20190440
引用本文: 赵媛媛, 朱军, 谢亚坤, 李维炼, 郭煜坤. 改进Yolo-v3的视频图像火焰实时检测算法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(3): 326-334. doi: 10.13203/j.whugis20190440
ZHAO Yuanyuan, ZHU Jun, XIE Yakun, LI Weilian, GUO Yukun. A Real-Time Video Flame Detection Algorithm Based on Improved Yolo-v3[J]. Geomatics and Information Science of Wuhan University, 2021, 46(3): 326-334. doi: 10.13203/j.whugis20190440
Citation: ZHAO Yuanyuan, ZHU Jun, XIE Yakun, LI Weilian, GUO Yukun. A Real-Time Video Flame Detection Algorithm Based on Improved Yolo-v3[J]. Geomatics and Information Science of Wuhan University, 2021, 46(3): 326-334. doi: 10.13203/j.whugis20190440

改进Yolo-v3的视频图像火焰实时检测算法

doi: 10.13203/j.whugis20190440
基金项目: 

国家自然科学基金 41871289

四川省自然资源厅科研项目 KJ-2020-4

四川省青年科技创新研究团队项目 2020JDTD0003

详细信息
    作者简介:

    赵媛媛,硕士生,主要从事虚拟地理环境与灾害场景建模研究。3011441848@qq.com

    通讯作者: 朱军,博士,教授。vgezj@163.com
  • 中图分类号: P237; TP391

A Real-Time Video Flame Detection Algorithm Based on Improved Yolo-v3

Funds: 

National Natural Science Foundation of China 41871289

Scientific Research Project of Sichuan Provincial Department of Natural Resources KJ-2020-4

Sichuan Youth Science and Technology Innovation Team 2020JDTD0003

More Information
    Author Bio:

    ZHAO Yuanyuan, postgraduate, specializes in virtual geographic environment and disaster scenario modeling. E-mail: 3011441848@qq.com

    Corresponding author: ZHU Jun, PhD, professor. E-mail: vgezj@163.com
  • 摘要: 为解决现有视频图像火焰检测方法精度低、速度慢的问题,提出了改进Yolo-v3的视频火焰实时检测算法。首先,在特征提取阶段,通过进一步融合多尺度特征提高网络对图像浅层信息的学习能力,以实现小火焰区域的精准识别;其次,在目标检测阶段,利用改进的K-means聚类算法优化多尺度先验框以适应火焰不同尺寸;最后,在改进Yolo-v3的视频火焰检测之后,利用火焰特有的闪烁特征对检测结果中的误检帧进行排除,进一步提高检测精度。从精度和速度两个方面对视频火焰进行检测,并与近年来先进的火焰检测算法对比,结果表明,该方法准确率均值可达到98.5%,误检率低至2.3%,平均检测速率为52帧/s,在精度和速度方面皆有更好的表现。
  • 图  1  Yolo-v3网络结构

    Figure  1.  Yolo-v3 Network Structure

    图  2  改进后的多尺度检测网络

    Figure  2.  Improved Multi-scale Detection Network

    图  3  目标预测示意图

    Figure  3.  Diagram of Target Prediction

    图  4  先验框个数KI关系图

    Figure  4.  Relationship Between K and I

    图  5  视频图像火焰检测流程

    Figure  5.  Flowchart of Video Image Flame Detection

    图  6  火焰特征图

    Figure  6.  Flame Feature Image

    图  7  训练集部分数据

    Figure  7.  Part of the Data in Training Set

    图  8  模型验证结果

    Figure  8.  Model Verification Results

    图  9  改进Yolo-v3的视频图像火焰检测结果

    Figure  9.  Flame Recognition Results of Video Images Based on Improved Yolo-v3

    图  10  闪烁频率检测

    Figure  10.  Flicker Frequency Detection

    图  11  7种算法检测结果对比

    Figure  11.  Detection Results Comparison of Seven Algorithms

    表  1  聚类中心坐标和先验框尺寸

    Table  1.   Coordinates of Cluster Center and Size of the Anchors

    聚类中心坐标 先验框尺寸
    聚类中心 坐标 先验框 尺寸/像素
    1 (0.15, 0.23) 1 17×25
    2 (0.04, 0.06) 2 29×37
    3 (0.07, 0.19) 3 29×79
    4 (0.29, 0.71) 4 46×150
    5 (0.11, 0.36) 5 58×54
    6 (0.25, 0.35) 6 62×96
    7 (0.17, 0.51) 7 71×212
    8 (0.28, 0.23) 8 104×146
    9 (0.43, 0.42) 9 117×96
    10 (0.07, 0.09) 10 121×295
    11 (0.14, 0.13) 11 179×175
    12 (0.5, 0.75) 12 208×312
    下载: 导出CSV

    表  2  数据集描述/张

    Table  2.   Data Description/piece

    数据集名称 火焰图像 非火图像 总数
    训练集 3 370 1 650 5 020
    验证集 600 300 900
    测试集 14 667 6 418 21 085
    总数 18 637 8 368 27 005
    下载: 导出CSV

    表  3  火焰视频和非火焰视频检测结果

    Table  3.   Detection Results on Flame Videos and Non-flame Videos

    火焰视频检测结果 非火焰视频检测结果
    视频编号 总帧数 正检帧数 查准率/% 漏检帧数 漏检率/% 视频编号 总帧数 误检帧数 误检率/%
    1 650 643 98.9 7 1.1 7 2 975 67 2.3
    2 1 500 1 476 98.4 24 1.6 8 2 225 0 0.0
    3 1 300 1 279 98.4 21 1.9 9 550 39 7.1
    4 5 875 5 823 99.1 52 0.9 10 668 234 15.4
    5 3 095 3 057 98.8 38 1.2
    6 2 247 2 229 99.2 18 0.8
    均值 2 445 2 418 98.9 27 1.1 均值 1 604 85 5.3
    下载: 导出CSV

    表  4  视频检测优化结果

    Table  4.   Video Detection Optimization Results

    视频编号 总帧数 误检帧数 误检率/%
    7 2 975 0 0.0
    8 2 225 0 0.0
    9 550 14 0.0
    10 668 135 9.3
    均值 1 604 37 2.3
    下载: 导出CSV

    表  5  视频检测速度统计

    Table  5.   Video Detection Speed Statistics

    视频编号 总帧数 总耗时/s 速率/(帧·s-1
    1 650 12.75 51
    2 1 500 28.30 53
    3 1 300 25.00 52
    4 2 247 43.21 52
    5 3 095 60.69 51
    6 5 875 117.50 50
    7 2 975 56.13 53
    8 2 225 41.98 53
    9 550 10.19 54
    10 668 12.85 52
    均值 2 109 40.86 52
    下载: 导出CSV

    表  6  7种算法结果对比

    Table  6.   Results Comparison of Seven Algorithms

    算法 查准率/% 误检率/% 速率/(帧·s-1
    文献[15]算法 81.6 17.8 29
    文献[16]算法 88.7 18.7 27
    文献[17]算法 90.3 19.9 21
    Yolo算法 82.7 15.2 43
    Yolo-v2算法 85.4 9.4 55
    Yolo-v3算法 96.1 6.3 62
    本文算法 98.5 2.3 52
    下载: 导出CSV
  • [1] Çelik T, Demirel H, Ozkaramanli H. Automatic Fire Detection in Video Sequences[C]. The 14th European Signal Processing Conference, Florence, Italy, 2006
    [2] Çelik T, Demirel T. Fire Detection in Video Sequences Using a Generic Color Model[J]. Fire Safety Journal, 2009, 44(2): 147-158 http://www.sciencedirect.com/science/article/pii/S0379711208000568
    [3] Pasquale F, Alessia S, Mario V. Real-Time Fire Detection for Video-Surveillance Applications Using a Combination of Experts Based on Color, Shape, and Motion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(9): 1 545 - 1 556 doi:  10.1109/TCSVT.2015.2392531
    [4] Ju H, Li W, Tighe S, et al. CrackU-Net: A Novel Deep Convolutional Neural Network for Pixelwise Pavement Crack Detection[J]. Structural Control and Health Monitoring, 2020, 27(8), DOI:  10.1002/stc.2551
    [5] Sun W, Paiva A, Xu P, et al. Fault Detection and Identification Using Bayesian Recurrent Neural Networks[J]. Computers and Chemical Engineering, 2020, 141, DOI:  10.1016/j.compchemeng.2020.106991
    [6] Rei S, Yuhei H, Ayako O. Non-destructive Detection of Tea Leaf Chlorophyll Content Using Hyperspectral Reflectance and Machine Learning Algorithms[J]. Plants, 2020, 9(3), DOI:  10.3390/plants9030368
    [7] 季顺平, 田思琦, 张驰. 利用全空洞卷积神经元网络进行城市土地覆盖分类与变化检测[J]. 武汉大学学报·信息科学版, 2020, 45(2): 233-241 doi:  10.13203/j.whugis20180481

    Ji Shunping, Tian Siqi, Zhang Chi. Using All-Hole Convolutional Neural Network for Urban Land Cover Classification and Change Detection[J]. Geomatics and Information Science of Wuhan University, 2020, 45(2): 233-241 doi:  10.13203/j.whugis20180481
    [8] Chirra V, Uyyala S, Kolli V. Deep CNN: A Machine Learning Approach for Driver Drowsiness Detection Based on Eye State[J]. International Information and Engineering Technology Association, 2019, 33(6): 461-466 http://www.researchgate.net/publication/338251837_Deep_CNN_A_Machine_Learning_Approach_for_Driver_Drowsiness_Detection_Based_on_Eye_State
    [9] 胡涛, 朱欣焰, 呙维, 等. 融合颜色和深度信息的运动目标提取方法[J]. 武汉大学学报·信息科学版, 2019, 44(2): 276-282 doi:  10.13203/j.whugis20160535

    Hu Tao, Zhu Xinyan, Guo Wei, et al. A Moving Object Detection Method Combining Color and Depth Data[J]. Geomatics and Information Science of Wuhan University, 2019, 44(2): 276-282 doi:  10.13203/j.whugis20160535
    [10] Kantorov V, Oquab M, Cho M, et al. Context LocNet: Context-Aware Deep Network Models for Weakly Supervised Localization[C]. European Conference on Computer Vision, Amsterdam, Netherlands, 2016
    [11] Xie Y, Zhu J, Cao Y, et al. Refined Extraction of Building Outlines from High-Resolution Remote Sensing Imagery Based on a Multifeature Convolutional Neural Network and Morphological Filtering[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 1 842-1 855 doi:  10.1109/JSTARS.2020.2991391
    [12] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[EB/OL]. (2013-09-07)[2019-09-25]. https://arxiv.org/abs/1301.3781
    [13] Hinton E, Osindero S, Teh Y. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006, 18(7): 1 527-1 554 doi:  10.1162/neco.2006.18.7.1527
    [14] Xie Y, Zhu J, Cao Y, et al. Efficient Video Fire Detection Exploiting Motion-Flicker-Based Dynamic Features and Deep Static Features[J]. IEEE Access, 2020, 8: 81 904 - 81 917 doi:  10.1109/ACCESS.2020.2991338
    [15] Frizzi S, Kaabi R, Bouchouicha M, et al. Convolutional Neural Network for Video Fire and Smoke Detection[C]. Conference of the IEEE Industrial Electronics Society, Florence, Italy, 2016
    [16] Zhang Q, Xu J, Xu L, et al. Deep Convolutional Neural Networks for Forest Fire Detection[C]. International Forum on Management, Education and Information Technology Application, Paris, France, 2016
    [17] 傅天驹, 郑嫦娥, 田野, 等. 复杂背景下基于深度卷积神经网络的森林火灾识别[J]. 计算机与现代化, 2016 (3): 52-57 http://www.cnki.com.cn/article/cjfdtotal-jyxh201603012.htm

    Fu Tianju, Zheng Change, Tian Ye, et al. Forest Fire Recognition Based on Deep Convolutional Neural Network Under Complex Background[J]. Computer and Modernization, 2016 (3): 52-57 http://www.cnki.com.cn/article/cjfdtotal-jyxh201603012.htm
    [18] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Lasvegas, USA, 2016
    [19] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]. IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017
    [20] Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[EB/OL]. (2018-04-08)[2019-09-25]. https://arxiv.org/abs/1804.02767
    [21] 陈垂雄, 严云洋, 刘以安, 等. 运动区域提取和闪频分析并行的火焰检测算法[J]. 数据采集与处理, 2017, 32(2): 424-430 http://www.cqvip.com/QK/96163X/201702/672013730.html

    Chen Chuixiong, Yan Yunyang, Liu Yian, et al. Fire Detection Based on Parallel Computing of Motion and Flicker Frequency Feature[J]. Journal of Data Acquisition and Processing, 2017, 32(2): 424-430 http://www.cqvip.com/QK/96163X/201702/672013730.html
    [22] Toulouse T, Rossi L, Campana A, et al. Computer Vision for Wildfire Research: An Evolving Image Dataset for Processing and Analysis[J]. Fire Safety Journal, 2017, 92: 188-194 doi:  10.1016/j.firesaf.2017.06.012
    [23] Cetin A. Fire Detection Samples[EB/OL]. (2013-09-03)[2019-09-25]. http://Signal.ee.bilkent.edu.tr/VisiFire
    [24] Steffens, Botelho S, Rodrigues R. A Texture Driven Approach for Visible Spectrum Fire Detection on Mobile Robots[C]. The XⅢ Latin American Robotics Symposium and IV Brazilian Robotics Symposium (LARS/SBR), Recife, Brazil, 2016
  • [1] 张瑞倩, 邵振峰, Aleksei Portnov, 汪家明.  多尺度空洞卷积的无人机影像目标检测方法 . 武汉大学学报 ● 信息科学版, 2020, 45(6): 895-903. doi: 10.13203/j.whugis20200253
    [2] 吕瑞, 邵振峰.  基于稀疏多尺度分割和级联形变模型的行人检测算法 . 武汉大学学报 ● 信息科学版, 2016, 41(11): 1544-1549. doi: 10.13203/j.whugis20140212
    [3] 张晗, 倪维平, 严卫东, 边辉, 吴俊政, 李莎, 金骁.  利用分形和多尺度分析的中低分辨率SAR图像变化检测 . 武汉大学学报 ● 信息科学版, 2016, 41(5): 642-648. doi: 10.13203/j.whugis20140375
    [4] 刘操, 郑宏, 黎曦, 余典.  基于多通道融合HOG特征的全天候运动车辆检测方法 . 武汉大学学报 ● 信息科学版, 2015, 40(8): 1048-1053. doi: 10.13203/j.whugis20130341
    [5] 邢远秀, 章登义, 赵俭辉.  利用多尺度弦角尖锐度累积的自适应角点检测算子 . 武汉大学学报 ● 信息科学版, 2015, 40(5): 617-622,627. doi: 10.13203/j.whugis20140583
    [6] 陆苗, 梅洋, 赵勇, 冷亮.  利用多尺度几何特征向量的变化检测方法 . 武汉大学学报 ● 信息科学版, 2015, 40(5): 623-627. doi: 10.13203/j.whugis20130382
    [7] 黄秋燕, 冯学智, 肖鹏峰.  利用稀疏分解的高分辨率遥感图像线状特征检测 . 武汉大学学报 ● 信息科学版, 2014, 39(8): 913-917. doi: 10.13203/j.whugis20130252
    [8] 张宇, 何楚, 石博, 徐新.  逐层特征选择的多层部件模型用于遥感图像飞机目标检测 . 武汉大学学报 ● 信息科学版, 2014, 39(12): 1406-1411.
    [9] 林怡, 刘冰, 陈映鹰, 潘琛.  多特征差分核支持向量机遥感影像变化检测方法 . 武汉大学学报 ● 信息科学版, 2013, 38(8): 978-982.
    [10] 李晖, 肖鹏峰, 冯学智, 林金堂.  多光谱图像的边缘特征检测方法 . 武汉大学学报 ● 信息科学版, 2012, 37(6): 644-648.
    [11] 刘慧, 李清泉, 曾喆, 高春仙.  利用低空视频检测道路车辆 . 武汉大学学报 ● 信息科学版, 2011, 36(3): 316-320.
    [12] 尤红建.  多尺度分割优化的SAR变化检测 . 武汉大学学报 ● 信息科学版, 2011, 36(5): 531-534.
    [13] 雷波, 李清泉.  复杂交通场景中车辆视频检测的背景提取与更新 . 武汉大学学报 ● 信息科学版, 2009, 34(8): 906-909.
    [14] 孙小丹, 徐涵秋.  一种利用多光谱双向检测和多尺度角特征验证的角提取方法 . 武汉大学学报 ● 信息科学版, 2009, 34(10): 1231-1235.
    [15] 明英, 蒋晶珏.  视频序列图像中运动目标检测与阴影去除 . 武汉大学学报 ● 信息科学版, 2008, 33(12): 1216-1220.
    [16] 唐敏, 张祖勋, 张剑.  基于广义点理论的多基线影像钣金件3D重建与尺寸检测 . 武汉大学学报 ● 信息科学版, 2007, 32(12): 1095-1098.
    [17] 费浦生, 王文波.  基于小波增强的改进多尺度形态梯度边缘检测算法 . 武汉大学学报 ● 信息科学版, 2007, 32(2): 120-123.
    [18] 种衍文, 江柳, 沈未名.  基于变化检测的视频对象提取及后继帧的对象跟踪 . 武汉大学学报 ● 信息科学版, 2006, 31(8): 748-751.
    [19] 胡鹏, 傅仲良, 陈楠.  利用灰色理论进行图像边缘检测 . 武汉大学学报 ● 信息科学版, 2006, 31(5): 411-414.
    [20] 王刃, 张本昀, 朱新慧.  视频激光干涉牛顿环中心的实时提取技术 . 武汉大学学报 ● 信息科学版, 2006, 31(11): 1031-1033.
  • 加载中
图(11) / 表(6)
计量
  • 文章访问数:  85
  • HTML全文浏览量:  30
  • PDF下载量:  39
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-08-05
  • 刊出日期:  2021-03-05

改进Yolo-v3的视频图像火焰实时检测算法

doi: 10.13203/j.whugis20190440
    基金项目:

    国家自然科学基金 41871289

    四川省自然资源厅科研项目 KJ-2020-4

    四川省青年科技创新研究团队项目 2020JDTD0003

    作者简介:

    赵媛媛,硕士生,主要从事虚拟地理环境与灾害场景建模研究。3011441848@qq.com

    通讯作者: 朱军,博士,教授。vgezj@163.com
  • 中图分类号: P237; TP391

摘要: 为解决现有视频图像火焰检测方法精度低、速度慢的问题,提出了改进Yolo-v3的视频火焰实时检测算法。首先,在特征提取阶段,通过进一步融合多尺度特征提高网络对图像浅层信息的学习能力,以实现小火焰区域的精准识别;其次,在目标检测阶段,利用改进的K-means聚类算法优化多尺度先验框以适应火焰不同尺寸;最后,在改进Yolo-v3的视频火焰检测之后,利用火焰特有的闪烁特征对检测结果中的误检帧进行排除,进一步提高检测精度。从精度和速度两个方面对视频火焰进行检测,并与近年来先进的火焰检测算法对比,结果表明,该方法准确率均值可达到98.5%,误检率低至2.3%,平均检测速率为52帧/s,在精度和速度方面皆有更好的表现。

English Abstract

赵媛媛, 朱军, 谢亚坤, 李维炼, 郭煜坤. 改进Yolo-v3的视频图像火焰实时检测算法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(3): 326-334. doi: 10.13203/j.whugis20190440
引用本文: 赵媛媛, 朱军, 谢亚坤, 李维炼, 郭煜坤. 改进Yolo-v3的视频图像火焰实时检测算法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(3): 326-334. doi: 10.13203/j.whugis20190440
ZHAO Yuanyuan, ZHU Jun, XIE Yakun, LI Weilian, GUO Yukun. A Real-Time Video Flame Detection Algorithm Based on Improved Yolo-v3[J]. Geomatics and Information Science of Wuhan University, 2021, 46(3): 326-334. doi: 10.13203/j.whugis20190440
Citation: ZHAO Yuanyuan, ZHU Jun, XIE Yakun, LI Weilian, GUO Yukun. A Real-Time Video Flame Detection Algorithm Based on Improved Yolo-v3[J]. Geomatics and Information Science of Wuhan University, 2021, 46(3): 326-334. doi: 10.13203/j.whugis20190440
  • 火灾本身具有不确定性、复杂性、快速性等特征,一旦发生容易造成严重的经济损失和人员伤亡。准确的火焰预警可以极大地减少损失。随着智能监控处理能力的提升,基于视频的火焰自动检测方法不断涌出,其中,利用颜色进行火焰检测是最早的方法[1-2]。但该方法需要大范围火焰区域。为了提高火焰识别的准确率,研究人员在颜色特征的基础上加入了火焰的运动特征[3],提高了火焰识别的准确率,但误检率仍旧较高。

    近年来,各种深度学习网络,如卷积神经网络[4]、递归神经网络[5]、深度信念网络[6]等完成了如图像处理、分类和检索[5-8]、目标检测[9]、定位[10]、分割[11]、自然语言处理[12]、语音识别[13]等方面的应用。其中,卷积神经网络在图像分类方面取得了较好的效果,因此,许多卷积神经网络算法被应用于视频火焰检测中[14]。在火焰检测研究中,文献[15]设计了一个9层卷积神经网络;文献[16]设计了一种两级结构卷积神经网络;文献[17]设计了一个12层卷积神经网络,虽然大幅度地提高了火焰检测精度,降低了误检率,但是检测速率仍然很慢,无法实现对视频中火焰的实时检测;文献[18]提出了Yolo算法,其检测速度可达45帧/s,真正实现了实时检测;并在此基础上,又提出了Yolo-v2算法[19];此后,Redmon等[20]在Yolo-v2算法的基础上,融合ResNet网络、二元交叉熵损失等的思想,提出了Yolo-v3算法,该算法在大幅度提高检测速率的同时也提高了检测精度。但该算法对小目标检测效果仍不乐观,不适合对小火焰区域进行识别。

    为解决上述问题,本文提出了改进Yolo-v3的视频图像火焰识别算法,在保证视频图像火焰检测速率的同时,大幅度提高视频图像火焰识别的精度,特别是实现对小火焰区域的高效检测。此外,本文结合火焰闪烁特征,进一步排除视频火焰误检情况,提高检测精度。

    • Yolo-v3通过引入了残差模块,降低深层网络训练复杂度,提高目标检测精度和速率。其中,Darknet-53(如图 1所示)作为Yolo-v3的骨干网络,使用步长为2的卷积进行32、16、8倍下采样操作,并进行目标检测,拼接特征信息,融合13×13、26×26、52×52这3种不同尺度的特征,连接深、浅层特征,达到同时学习多尺度特征的效果。尽管Yolo-v3目标检测能力较强,但对小目标识别能力仍然有限,而在火焰检测时,需要对小区域火焰进行实时精确的检测,防止火势蔓延。针对Yolo-v3在视频图像火焰检测上存在的问题,本文提出了改进Yolo-v3的视频图像火焰实时检测算法,并通过实验验证了本文方法在火焰检测中的可行性。

      图  1  Yolo-v3网络结构

      Figure 1.  Yolo-v3 Network Structure

    • Darknet-53网络提取特征信息时,浅层特征格网划分较小,主要提供位置信息;深层特征格网划分较大,主要提供语义信息。为了能够利用浅层位置信息,提高目标检测精度,Yolo-v3在进行多尺度检测时使用了3个尺度(13×13、26×26、52×52)融合的方法。分辨率最小的特征尺度为52×52,相对416×416像素的输入图像,格网划分还是不够精细,经过层层卷积计算后,部分信息会丢失,造成浅层特征信息浪费,导致其对小火焰区域的检测精度不高。

      为提高网络融合多尺度特征能力,准确识别小火焰区域,本文改进了Yolo-v3多尺度检测网络,添加分辨率更小的特征尺度以充分学习浅层特征。由于新增特征尺度会增加网络复杂程度,拉低检测速率,综合考虑火焰检测精度和速率要求,增添104×104尺度,改进为4尺度检测。本文输入图像大小为416×416像素,改进的网络模型如图 2所示。

      图  2  改进后的多尺度检测网络

      Figure 2.  Improved Multi-scale Detection Network

      首先,将L74(74层)作为第1尺度特征13×13,进行卷积和上采样操作,与L61融合得到26×26的第2尺度特征;其次,将第2尺度特征与L36结果融合作为52×52的第3尺度特征;最后,将第3尺度特征进行上采样与L11结果进行融合,得到104×104的第4尺度特征。

      改进后的多尺度特征融合方法可以更多地获取图像浅层特征,在满足火焰检测速度的同时,进一步提高对小火焰区域的检测效果。

    • Yolo-v3算法将输入图像分成若干网格,如果检测目标实际边框的中心处于某个网格中,则这个网格负责预测这个目标,如图 3所示。

      图  3  目标预测示意图

      Figure 3.  Diagram of Target Prediction

      视频中火焰区域大小具有不定性,为了能够实现高精度的火焰检测,需要对Yolo-v3的先验框尺寸进行优化,使之更适合火焰检测,本文利用K-means聚类算法分析统计本文数据集的实际边框,聚类个数K即为先验框的个数,聚类中心框的宽、高即为先验框宽、高与图像大小的比值。

      由于先验框大小不一,采用K-means欧氏测距法进行距离计算,产生的误差与先验框的大小成正相关性,即先验框越大,产生的误差越大。为解决上述问题,同时,使先验框与检测目标实际边框的交并比更大,本文用改进的距离公式[20]进行计算,利用I来计算先验框之间的距离,其值越大,先验框之间的距离越小。先验框之间的距离为:

      $$ d(b, c)=1-I(b, c) $$ (1)

      式中,b为任意一个先验框;c为对应先验框的中心;I为先验框之间重叠面积与总面积的比值。利用优化后的K-means算法,得出先验框个数KI的关系,如图 4所示。

      图  4  先验框个数KI关系图

      Figure 4.  Relationship Between K and I

      图 4中,横、纵坐标分别为先验框个数KI值,随着K值的增加,I值会随之增大,当K=12时,I值趋于平缓,综合考虑网络火焰检测的速率和精度,设置先验框个数为12,并随机产生12个初始聚类中心。按照式(1)行距离迭代计算,直到聚类中心距离变化小于阈值(本文中为0.005)停止计算,得出最终聚类中心坐标,如表 1所示。

      表 1  聚类中心坐标和先验框尺寸

      Table 1.  Coordinates of Cluster Center and Size of the Anchors

      聚类中心坐标 先验框尺寸
      聚类中心 坐标 先验框 尺寸/像素
      1 (0.15, 0.23) 1 17×25
      2 (0.04, 0.06) 2 29×37
      3 (0.07, 0.19) 3 29×79
      4 (0.29, 0.71) 4 46×150
      5 (0.11, 0.36) 5 58×54
      6 (0.25, 0.35) 6 62×96
      7 (0.17, 0.51) 7 71×212
      8 (0.28, 0.23) 8 104×146
      9 (0.43, 0.42) 9 117×96
      10 (0.07, 0.09) 10 121×295
      11 (0.14, 0.13) 11 179×175
      12 (0.5, 0.75) 12 208×312

      通过迭代运算得到的聚类中心坐标是相对于图像大小的比例,要与输入图像的尺寸416×416像素相乘,得到先验框尺寸,并按尺寸大小进行排列,结果如表 1所示。

      改进后的目标检测网络有4种尺寸特征图,本文沿用Yolo-v3算法,每种尺寸特征图匹配3个先验框。13×13的特征图感受野最大,适合检测大区域火焰,相应匹配121×295、179×175、208×312这3种大尺寸先验框;26×26的特征图适合检测较大区域火焰,匹配71×212、104×146、117×96这3种较大尺寸的先验框;52×52的特征图适合检测中等区域火焰,匹配46×150、58×54、62×96这3种中等尺寸的先验框;而新增的104×104的特征图感受野最小,适合检测小区域火焰,所以匹配17×25、29×37、29×79这3种小尺寸的先验框。

    • 火焰特有的闪烁频率范围为7~10 Hz[21],这是和其他类火干扰物最显著的区别。本文利用视频相邻多帧图像像素点亮度值变化来计算火焰闪烁特征,对火焰检测结果进行闪烁特征分析,能够有效地排除检测结果中误判的情况,提高火焰检测精度。

      本文利用相邻帧之间亮度值累积差分法计算闪烁频率,建立闪烁计数矩阵Mxyt),亮度值矩阵Ixyt)。计算公式为:

      $$ \left\{\begin{array}{l}M(x, y, t)=\left\{\begin{array}{l}M(x, y, t-1)+1, \mathrm{\Delta }I>T\\ M(x, y, t-1)\begin{array}{cc}, \mathrm{其}\mathrm{他}& \end{array}\end{array}\right.\\ \mathrm{\Delta }I=\left|I(x, y, t)-I(x, y, t-1)\right|\end{array}\right. $$ (2)

      式中,Ixyt)为像素点(xy)在t时刻的亮度值;Mxy,t)为像素点(xy)在t时刻的闪烁计数;T为相邻两帧亮度差阈值,$ \mathrm{\Delta }I $超过阈值$ T $,则相应的闪烁计数加1,否则不变。

      t时刻,通过该像素点一段时间T内的闪烁次数判定其是否符合闪烁特征,T通常取值为1 s,即帧速率,1 s内,若闪烁计数M值变化超过阈值TM(取值为10)[21],即可判定该区域是闪烁的:

      $$ M(x, y, t)-M(x, y, t-T)>{T}_{M} $$ (3)

      最后,计算一段时间内图像的闪烁频率F为:

      $$ F=\frac{M(x, y, {t}_{n})-M(x, y, {t}_{1})}{{t}_{n}-{t}_{1}} $$ (4)
    • 本文算法流程如图 5所示。

      图  5  视频图像火焰检测流程

      Figure 5.  Flowchart of Video Image Flame Detection

      首先,通过网络获取图像和视频,对视频进行单帧提取,构建数据集,并对数据集中图像进行Resize、归一化处理。因Darknet-53中存在5次步幅为2×2的下采样过程,会将特征图缩小32倍,故要将图像大小Resize为32的倍数。本文将数据集图像Resize为416×416像素的尺寸。图像归一化处理主要是在不改变图像信息的前提下,把图像从0~255像素变成0~1像素的范围,以加快训练网络的收敛性。其次,利用改进的Yolo-v3网络以网格法分割图像并分别输出特征图,学习图像中火焰深层语义信息和浅层位置信息,并利用4个尺度特征(如图 6所示)融合实现精确实时的视频图像火焰检测。最后,利用火焰的闪烁特征,排除火焰视频图像检测结果中误检的情况,以提高火焰检测精度。

      图  6  火焰特征图

      Figure 6.  Flame Feature Image

    • 本文所用实验数据集图像大小为416×416像素。改进Yolo-v3模型的架构、训练及测试都是在TensorFlow的深度学习框架Keras上进行的,在带有Win10系统NVIDIA GeForce GTX 1080 with Max-Q Design 8 GB的GPU上实现。

    • 本文实验数据集如表 2所示。

      表 2  数据集描述/张

      Table 2.  Data Description/piece

      数据集名称 火焰图像 非火图像 总数
      训练集 3 370 1 650 5 020
      验证集 600 300 900
      测试集 14 667 6 418 21 085
      总数 18 637 8 368 27 005

      1)由从公开的火焰数据集ImageNet、BoW-Fire、文献[22]中获得的4 000张图像,以及通过互联网下载的1 020张图像,构成本次实验的训练集,如图 7所示。训练集数据分为火焰图像和非火图像。

      图  7  训练集部分数据

      Figure 7.  Part of the Data in Training Set

      2)由从互联网上下载的600张火焰数据和300张非火数据构成的验证集。

      3)由从Bilkent大学公开火焰视频库[23]以及文献[24]提供的视频中选取火焰视频和非火焰视频,进行视频单帧提取获得21 085张图像,构成本次实验的测试集。测试集中视频1~6为火焰视频,视频7~10为非火焰视频。

    • 为全面评估基于改进Yolo-v3的火焰识别效果,本文利用验证集图像数据进行火焰识别测试,以验证本文模型的可靠性,测试结果如图 8所示。

      图  8  模型验证结果

      Figure 8.  Model Verification Results

      定义查准率A为正确判定火焰或非火焰的概率,误检率Pf为在无火的情况下误判为有火的概率,漏检率Nf为有火的情况下漏检的概率,计算公式为:

      $$ \left\{\begin{array}{l}A=\frac{{T}_{P}+{T}_{N}}{{N}_{\mathrm{p}\mathrm{o}\mathrm{s}}+{N}_{\mathrm{n}\mathrm{e}\mathrm{g}}}\times 100\mathrm{\%}\\ {P}_{f}=\frac{{F}_{P}}{{N}_{\mathrm{n}\mathrm{e}\mathrm{g}}}\times 100\mathrm{\%}\\ {N}_{f}=\frac{{F}_{N}}{{N}_{\mathrm{p}\mathrm{o}\mathrm{s}}}\times 100\mathrm{\%}\end{array}\right. $$ (5)

      式中,TPTN分别为火焰图像、非火焰图像被正确检测的图像数量;FP为非火焰图像被检测为火焰的图像数量;FN为火焰图像被漏检的图像数量;NposNneg分别为样本中的火焰图像、非火焰图像的数量。

      基于改进的Yolo-v3算法,火焰识别的查准率为98.1%,误检率为3.5%,漏检率为1.1%。说明本文算法对火焰检测精度较高,可以将本文方法运用到视频火焰检测中。基于改进Yolo-v3的视频图像火焰识别测试结果如表 3所示。

      表 3  火焰视频和非火焰视频检测结果

      Table 3.  Detection Results on Flame Videos and Non-flame Videos

      火焰视频检测结果 非火焰视频检测结果
      视频编号 总帧数 正检帧数 查准率/% 漏检帧数 漏检率/% 视频编号 总帧数 误检帧数 误检率/%
      1 650 643 98.9 7 1.1 7 2 975 67 2.3
      2 1 500 1 476 98.4 24 1.6 8 2 225 0 0.0
      3 1 300 1 279 98.4 21 1.9 9 550 39 7.1
      4 5 875 5 823 99.1 52 0.9 10 668 234 15.4
      5 3 095 3 057 98.8 38 1.2
      6 2 247 2 229 99.2 18 0.8
      均值 2 445 2 418 98.9 27 1.1 均值 1 604 85 5.3

      利用改进的模型进行视频火焰检测,查准率可达97.6%,误检率为5.3%,漏检率为1.1%。改进Yolo-v3的视频图像火焰检测结果如图 9所示。其中,标注框左上角的数字代表模型判定该区域为火焰的概率。检测中出现的误检情况主要是闪烁灯光及阳光等类火对象的干扰所致,为排除这些情况造成的干扰,本文引入了火焰特有的闪烁特征,排除非火对象,降低视频火焰识别的误检率,优化检测精度。

      图  9  改进Yolo-v3的视频图像火焰检测结果

      Figure 9.  Flame Recognition Results of Video Images Based on Improved Yolo-v3

    • 根据火焰特有的闪烁特征,对检测结果中判定为火焰的帧进行再次检测,计算这些帧所在的时间间隔内火焰频率。本文以视频5、视频7、视频9和视频10为例,提取检测为火焰的帧所在的10 s间隔的视频,进行闪烁频率变化分析,结果如图 10所示。

      图  10  闪烁频率检测

      Figure 10.  Flicker Frequency Detection

      视频5闪烁频率在8~10 Hz内波动,在火焰的正常闪烁频率7~10 Hz范围内,可以断定为火焰;视频7中,仅4~6 s的帧符合闪烁频率,且低于7 Hz,可判断为非火对象;视频9中闪烁频率波动范围最大值小于7 Hz,由此可以判断为此视频中检测到的目标为非火对象;视频10中闪烁频率在5~9 Hz波动,根据火焰闪烁特征,可排除闪烁频率在5~7 Hz的误检帧。

      基于以上方法,排除类火对象对检测结果造成的干扰,可以有效地降低误检率,提高视频图像火焰检测精度,视频图像火焰检测优化结果如表 4所示。

      表 4  视频检测优化结果

      Table 4.  Video Detection Optimization Results

      视频编号 总帧数 误检帧数 误检率/%
      7 2 975 0 0.0
      8 2 225 0 0.0
      9 550 14 0.0
      10 668 135 9.3
      均值 1 604 37 2.3

      通过对检测对象的频率分析,有效地排除类火物体对检测结果造成的干扰,误检率由5.3%下降到2.3%,查准率从97.6%提高到98.5%,漏检率低至1.1%,大幅度地提高了视频图像火焰检测精度。

    • 改进Yolo-v3的视频图像火焰检测速度统计如表 5所示。

      表 5  视频检测速度统计

      Table 5.  Video Detection Speed Statistics

      视频编号 总帧数 总耗时/s 速率/(帧·s-1
      1 650 12.75 51
      2 1 500 28.30 53
      3 1 300 25.00 52
      4 2 247 43.21 52
      5 3 095 60.69 51
      6 5 875 117.50 50
      7 2 975 56.13 53
      8 2 225 41.98 53
      9 550 10.19 54
      10 668 12.85 52
      均值 2 109 40.86 52

      本文方法的视频图像火焰检测平均速率可达52帧/s,完全可以满足视频图像火焰实时检测的要求。

    • 为了进一步证明本文算法在火焰检测上的精确性与实时性,将本文算法与文献[15]的9层卷积神经网络、文献[16]的两级结构卷积神经网络、文献[17]的12层卷积神经网算法以及Yolo系列的Yolo、Yolo-v2、Yolo-v3算法基于本实验所用的10个火焰视频数据集进行对比分析,7种算法测试结果如表 6所示。

      表 6  7种算法结果对比

      Table 6.  Results Comparison of Seven Algorithms

      算法 查准率/% 误检率/% 速率/(帧·s-1
      文献[15]算法 81.6 17.8 29
      文献[16]算法 88.7 18.7 27
      文献[17]算法 90.3 19.9 21
      Yolo算法 82.7 15.2 43
      Yolo-v2算法 85.4 9.4 55
      Yolo-v3算法 96.1 6.3 62
      本文算法 98.5 2.3 52

      表 6可知,本文算法相对于9层卷积神经网络、两级结构卷积神经网络以及12层卷积神经网络3种算法,在查准率提高的同时,检测速率也有了大幅度的提升;与Yolo系列算法相比,本文算法相比于Yolo、Yolo-v2、Yolo-v3算法,查准率分别提高了15.8%、13.1%、2.4%,误检率分别降低了12.9%、7.1%、4.0%,在检测速率上,本文算法虽然比Yolo-v3和Yolo-v2算法稍逊,但是也达到了52帧/s的检测速率,完全可以达到火焰实时检测要求。相对于其他6种算法,本文算法对于小火焰区域的检测能力以及类火物体的排除能力有了明显提升,如图 11所示。

      图  11  7种算法检测结果对比

      Figure 11.  Detection Results Comparison of Seven Algorithms

      图 11可以看出,本文改进的Yolo-v3算法能够准确地识别出小火焰,并能够准确排除类火物体的干扰,文献[15]的9层卷积神经网络、文献[16]的两级结构卷积神经网络均不能实现,而Yolo系列算法和文献[17]的12层卷积神经网算法虽然能够排除类火物体的干扰,但是并不能实现对小火焰的识别。

      本文算法以52帧/s的检测速率,在满足火焰检测的实时性要求下,获得了98.5%的查准率和2.3%的误检率,实验证明了本文算法在火焰实时高效检测中的可行性。

    • 随着监控系统智能化发展,利用监控系统实现火焰实时高效检测对于控制火势蔓延带来的损失具有积极意义。本文优化了原Yolo-v3算法中的多尺度检测网络和先验框尺寸,并将优化后的算法应用到视频图像火焰识别领域,加强了网络对小火焰区域的识别能力,在提高了视频图像火焰识别精度、降低误检率的同时,也实现了实时检测。此外,本文还结合火焰的闪烁特征,在很大程度上排除了误判情况,降低了误检率,提高了检测精度。通过多组实验证明了本文算法的有效性,与现有技术相比,该算法能够更加有效地应用于视频火焰检测。

参考文献 (24)

目录

    /

    返回文章
    返回