留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

抗翻录攻击的鲁棒语音水印算法

刘正辉 张钰 秦兴红

刘正辉, 张钰, 秦兴红. 抗翻录攻击的鲁棒语音水印算法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 303-308. doi: 10.13203/j.whugis20190052
引用本文: 刘正辉, 张钰, 秦兴红. 抗翻录攻击的鲁棒语音水印算法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 303-308. doi: 10.13203/j.whugis20190052
LIU Zhenghui, ZHANG Yu, QIN Xinghong. Robust Speech Watermarking Algorithm Against Recapturing Attacks[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 303-308. doi: 10.13203/j.whugis20190052
Citation: LIU Zhenghui, ZHANG Yu, QIN Xinghong. Robust Speech Watermarking Algorithm Against Recapturing Attacks[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 303-308. doi: 10.13203/j.whugis20190052

抗翻录攻击的鲁棒语音水印算法

doi: 10.13203/j.whugis20190052
基金项目: 

国家自然科学基金 61502409

深圳市媒体信息内容安全重点实验室开放基金 2018-05

详细信息
    作者简介:

    刘正辉,博士,主要从事数字取证、信息隐藏研究。zhenghui.liu@163.com

  • 中图分类号: P208

Robust Speech Watermarking Algorithm Against Recapturing Attacks

Funds: 

The National Natural Science Foundation of Chin 61502409

the Open Fund of Shenzhen Key Laboratory of Media Securit 2018-05

More Information
    Author Bio:

    LIU Zhenghui, PhD, specializes in digital forensics and information hiding. E-mail:zhenghui.liu@163.com

  • 摘要: 水印为数字音频的版权保护提供了一种技术手段。然而,随着录用设备的普及,翻录攻击成为一种去除水印信息的有效方法。为了提高水印算法的安全性,提出了一种鲁棒的抗翻录攻击的数字语音水印算法。定义了离散余弦系数对数均值(discrete cosine transform coefficients logarithm mean,DCT-CLM)的特征,分析了该特征对翻录攻击的鲁棒性,并给出了基于该特征的水印嵌入方法。帧号和水印一起作为嵌入在各语音帧的信息,通过量化DCT-CLM方法将帧号和水印一起嵌入在各语音帧中。帧号用来同步各语音帧的内容,从同步的含水印语音帧中提取水印信息,从而进行溯源追踪。和常见的语音水印算法相比,该算法除了对去同步攻击的鲁棒性之外,还能够抵抗对敏感语音内容的翻录攻击。
  • 图  1  原始语音信号

    Figure  1.  Original Speech Signal

    图  2  翻录语音信号

    Figure  2.  Recaptured Speech Signal

    图  3  原始语音信号和翻录语音信号的DCT-CLM特征

    Figure  3.  DCT-CLM Feature of Original and Recaptured Speech Signals

    图  4  原始语音信号翻录后DCT-CLM特征的变化幅度

    Figure  4.  Variation Amplitude of DCT-CLM Feature for Original Speech Signal After Being Recaptured

    图  5  水印嵌入过程

    Figure  5.  Process of Watermark Embedding

    图  6  提取和同步水印的流程

    Figure  6.  Process of Watermark Extraction and Synchronization

    图  7  第1种类型攻击M1分帧方法

    Figure  7.  Segmentation Method for the First Attack M1

    图  8  第2种类型攻击M2分帧方法

    Figure  8.  Segmentation Method for the Second Attack M2

    表  1  含水印信号的SNR值和SDG值

    Table  1.   SNR and SDG Values of Watermarked Signal

    指标 最大值 最小值 均值
    SNR 33.28 27.52 30.73
    SDG -0.84 -0.41 -0.65
    下载: 导出CSV

    表  2  不同信号处理和去同步攻击后水印提取的BER值

    Table  2.   BER Values of Watermarking After Different Signal Processing Operations and De-synchronization Attacks

    攻击类型 参数 BER/%
    文献
    [9]
    文献
    [10]
    本文
    算法
    信号处理 高斯噪声 30 dB 7 8 0
    回声 40% 5 3 1
    MP3压缩 64 kbit/s 5 4 1
    128 kbit/s 2 3 0
    去同步攻击 抖动攻击 1/10 9 12 1
    1/100 7 8 0
    1/1 000 3 3 0
    变速攻击 80% 16 18 8
    90% 12 16 5
    110% 9 11 3
    120% 14 15 6
    注:嵌入率为10 bit/s,SNR取值约为30 dB
    下载: 导出CSV

    表  3  翻录攻击和不同信号处理以及去同步攻击后水印提取的BER值

    Table  3.   BER Values of Watermarking After Recapturing Attack, Different Signal Processing Operations and De-synchronization Attacks

    攻击类型 参数 BER/%
    文献
    [9]
    文献
    [10]
    本文
    算法
    翻录攻击 15 18 4
    信号处理 高斯噪声 30 dB 17 22 4
    回声 40% 16 20 5
    MP3压缩 64 kbit/s 17 19 6
    128 kbit/s 16 17 4
    去同步攻击 抖动攻击 1/10 18 22 6
    1/100 18 21 4
    1/1 000 16 19 4
    变速攻击 80% 25 29 11
    90% 22 26 9
    110% 21 24 6
    120% 23 26 8
    注:嵌入率为10 bit/s,SNR取值约为30 dB
    下载: 导出CSV
  • [1] 彭正洪, 孙志豪, 程青, 等.利用时序手机通话数据识别城市用地功能[J].武汉大学学报·信息科学版, 2018, 43(9):1 399-1 407 doi:  10.13203/j.whugis20170329

    Peng Zhenghong, Sun Zhihao, Cheng Qing, et al.Urban Land Use Function Recognition Method Using Sequential Mobile Phone Data[J].Geomatics and Information Science of Wuhan University, 2018, 43(9):1 399-1 407 doi:  10.13203/j.whugis20170329
    [2] Hua G, Huang J W, Shi Y Q, et al.Twenty Years of Digital Audio Watermarking—A Comprehensive Review[J].Signal Processing, 2016, 128(11):222-242
    [3] 侯翔, 闵连权.基于SURF特征区域的鲁棒水印算法[J].武汉大学学报·信息科学版, 2017, 42(3):421-426 doi:  10.13203/j.whugis20140508

    Hou Xiang, Min Lianquan.A Robust Watermarking Algorithm Using SURF Feature Regions[J].Geomatics and Information Science of Wuhan University, 2017, 42(3):421-426 doi:  10.13203/j.whugis20140508
    [4] Nishimura A. Audio Watermarking Based on Subband Amplitude Modulation[J]. Acoustical Science and Technology, 2010, 31(5):328-336 doi:  10.1250/ast.31.328
    [5] 林威, 王玉海, 任娜, 等.基于QR码的瓦片遥感影像数字水印算法[J].武汉大学学报·信息科学版, 2017, 42(8):1 151-1 158 doi:  10.13203/j.whugis20150207

    Lin Wei, Wang Yuhai, Ren Na, et al.QR Code Based Research on Digital Watermarking Algorithm for Tile Remote Sensing Image[J].Geomatics and Information Science of Wuhan University, 2017, 42(8):1 151-1 158 doi:  10.13203/j.whugis20150207
    [6] 侯翔, 闵连权, 唐立文.定位篡改实体组的矢量地图脆弱水印算法[J].武汉大学学报·信息科学版, 2020, 45(2): 309-316 doi:  10.13203/j.whugis20170404

    Hou Xiang, Min Lianquan, Tang Liwen. Fragile Watermarking Algorithm for Locating Tampered Entity Groups in Vector Map Data[J]. Geomatics and Information Science of Wuhan University, 2020, 45(2): 309-316 doi:  10.13203/j.whugis20170404
    [7] Xiang Y, Natgunanathan I, Guo S, et al.Patchwork-Based Audio Watermarking Method Robust to De-synchronization Attacks[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(9):1 413-1 423 doi:  10.1109/TASLP.2014.2328175
    [8] Wang X Y, Ma T X, Niu P P.A Pseudo-Zernike Moments Based Audio Watermarking Scheme Robust Against Desynchronization Attacks[J].Computers and Electrical Engineering, 2011, 37(4):425-443 doi:  10.1016/j.compeleceng.2011.05.011
    [9] Kang X G, Yang R, Huang J W.Geometric Invariant Audio Watermarking Based on an LCM Feature[J].IEEE Transactions on Multimedia, 2011, 13(2):181-190 doi:  10.1109/TMM.2010.2098850
    [10] Nadeau, Sharma G.An Audio Watermark Designed for Efficient and Robust Resynchronization After Analog Playback[J].IEEE Transactions on Information Forensics and Security, 2017, 12(6) 1 393-1 405 doi:  10.1109/TIFS.2017.2661724
    [11] Natgunanathan I, Xiang Y, Hua G.Patchwork-Based Multilayer Audio Watermarking[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(11):2 176-2 187 doi:  10.1109/TASLP.2017.2749001
    [12] Hu H T, Hsu L Y.Robust, Transparent and High-Capacity Audio Watermarking in DCT Domain[J]. Signal Processing, 2015, 109(3):226-235
    [13] Liu Z H, Zhang F, Wang J, et al.Authentication and Recovery Algorithm for Speech Signal Based on Digital Watermarking[J].Signal Processing, 2016, 123(1):157-166
  • [1] 林威, 王玉海, 任娜, 郑小雪.  基于QR码的瓦片遥感影像数字水印算法 . 武汉大学学报 ● 信息科学版, 2017, 42(8): 1151-1158. doi: 10.13203/j.whugis20150207
    [2] 刘爱利, 丁浒, 田丹, 王丽, 王少峰.  基于坡度和坡向分析的DCT域DEM数字水印算法 . 武汉大学学报 ● 信息科学版, 2016, 41(7): 903-910. doi: 10.13203/j.whugis20140363
    [3] 陈亮, 朱长青, 任娜, 朱一姝.  利用小波变换的视频GIS数据数字水印算法 . 武汉大学学报 ● 信息科学版, 2012, 37(10): 1256-1259.
    [4] 杨成松, 朱长青, 王莹莹.  矢量地理数据自检测水印算法及其应用研究 . 武汉大学学报 ● 信息科学版, 2011, 36(12): 1402-1405.
    [5] 徐宏平, 万晓霞.  利用小波包变换和误差扩散的打印扫描图像水印算法 . 武汉大学学报 ● 信息科学版, 2011, 36(8): 978-981.
    [6] 王奇胜, 朱长青, 许德合.  利用DFT相位的矢量地理空间数据水印方法 . 武汉大学学报 ● 信息科学版, 2011, 36(5): 523-526.
    [7] 王志伟, 朱长青, 王奇胜, 符浩军.  一种基于HVS和DFT的栅格地图自适应数字水印算法 . 武汉大学学报 ● 信息科学版, 2011, 36(3): 351-354.
    [8] 李旭东.  基于奇异值分解的灰度级数字水印算法 . 武汉大学学报 ● 信息科学版, 2010, 35(11): 1305-1308.
    [9] 朱长青, 符浩军, 杨成松, 王奇胜.  基于整数小波变换的栅格数字地图数字水印算法 . 武汉大学学报 ● 信息科学版, 2009, 34(5): 619-621.
    [10] 魏为民, 梁光岚, 唐振军, 王朔中.  基于重叠正交变换的鲁棒水印方法 . 武汉大学学报 ● 信息科学版, 2008, 33(3): 326-329.
    [11] 董晓梅, 田跃萍, 李晓华, 于戈.  非数值型数据的数据库水印算法研究 . 武汉大学学报 ● 信息科学版, 2008, 33(10): 1026-1029.
    [12] 郝彦军, 王丽娜, 张焕国.  基于结构码的安全数字水印方案 . 武汉大学学报 ● 信息科学版, 2008, 33(10): 1070-1072.
    [13] 万晓霞, 吴汉颖, 甘朝华.  基于多层次误差扩散加网的数字水印算法研究 . 武汉大学学报 ● 信息科学版, 2007, 32(11): 1056-1059.
    [14] 李旭东.  基于图像灰度平均值的数字水印算法 . 武汉大学学报 ● 信息科学版, 2007, 32(6): 556-559.
    [15] 吴芳, 芮国胜.  基于四叉树和纠错编码的数字图像水印算法 . 武汉大学学报 ● 信息科学版, 2007, 32(3): 208-211.
    [16] 李睿, 李明, 张贵仓.  基于随机分块的脆弱性水印算法设计 . 武汉大学学报 ● 信息科学版, 2006, 31(9): 832-834.
    [17] 马桃林, 顾翀, 张良培.  基于二维矢量数字地图的水印算法研究 . 武汉大学学报 ● 信息科学版, 2006, 31(9): 792-794.
    [18] 郭建星, 肖亚峰, 张海堂, 马淑宇.  一种基于小波包变换的盲数字水印算法 . 武汉大学学报 ● 信息科学版, 2006, 31(2): 140-143.
    [19] 贾培宏, 马劲松, 史照良, 徐志中.  GIS空间数据水印信息隐藏与加密技术方法研究 . 武汉大学学报 ● 信息科学版, 2004, 29(8): 747-751.
    [20] 邵海梅, 梅天灿, 秦前清.  基于小波变换的扩频水印算法 . 武汉大学学报 ● 信息科学版, 2003, 28(5): 626-629.
  • 加载中
图(8) / 表(3)
计量
  • 文章访问数:  27
  • HTML全文浏览量:  1
  • PDF下载量:  6
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-09-12
  • 刊出日期:  2021-02-05

抗翻录攻击的鲁棒语音水印算法

doi: 10.13203/j.whugis20190052
    基金项目:

    国家自然科学基金 61502409

    深圳市媒体信息内容安全重点实验室开放基金 2018-05

    作者简介:

    刘正辉,博士,主要从事数字取证、信息隐藏研究。zhenghui.liu@163.com

  • 中图分类号: P208

摘要: 水印为数字音频的版权保护提供了一种技术手段。然而,随着录用设备的普及,翻录攻击成为一种去除水印信息的有效方法。为了提高水印算法的安全性,提出了一种鲁棒的抗翻录攻击的数字语音水印算法。定义了离散余弦系数对数均值(discrete cosine transform coefficients logarithm mean,DCT-CLM)的特征,分析了该特征对翻录攻击的鲁棒性,并给出了基于该特征的水印嵌入方法。帧号和水印一起作为嵌入在各语音帧的信息,通过量化DCT-CLM方法将帧号和水印一起嵌入在各语音帧中。帧号用来同步各语音帧的内容,从同步的含水印语音帧中提取水印信息,从而进行溯源追踪。和常见的语音水印算法相比,该算法除了对去同步攻击的鲁棒性之外,还能够抵抗对敏感语音内容的翻录攻击。

English Abstract

刘正辉, 张钰, 秦兴红. 抗翻录攻击的鲁棒语音水印算法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 303-308. doi: 10.13203/j.whugis20190052
引用本文: 刘正辉, 张钰, 秦兴红. 抗翻录攻击的鲁棒语音水印算法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 303-308. doi: 10.13203/j.whugis20190052
LIU Zhenghui, ZHANG Yu, QIN Xinghong. Robust Speech Watermarking Algorithm Against Recapturing Attacks[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 303-308. doi: 10.13203/j.whugis20190052
Citation: LIU Zhenghui, ZHANG Yu, QIN Xinghong. Robust Speech Watermarking Algorithm Against Recapturing Attacks[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 303-308. doi: 10.13203/j.whugis20190052
  • 当前,人们可以使用多种设备来充分感受语音数据为大家提供的方便[1]。比较常见的有通过手机、平板电脑以及数码录音笔等录制自己感兴趣的音频信号,并通过网络传播、分享这些作品,以丰富人们的生活。然而,对于某些敏感的音频信号,这些传播势必会对作品所有者或社会带来消极的影响。对于非法传播者而言,要追究其责任。因此,对音频信号的溯源追踪成为当前研究的热点领域,尤其是对于敏感的语音信号。本文以数字语音为研究对象,以数字水印技术为方法,解决语音信号的溯源追踪问题。

    近年来,已有学者对数字水印技术展开了研究[2-6]。由于音频信号的特殊性,去同步攻击会导致攻击后含水印音频的分帧和攻击前的不同步问题,使水印不能被正确地提取。为了抵抗去同步攻击,常用的方法是在音频各帧信号中嵌入标示信息。在水印检测时,首先检测各帧的标示信息,以定位相应帧的内容。文献[7]采用同步码的方法提出了一种鲁棒音频水印算法,通过量化离散余弦变换(discrete cosine transform,DCT)系数的方法来嵌入各帧的同步信息。相似地,文献[8]首先构造了16 bit的同步信息,然后将16 bit的同步信息采用量化伪Zernike矩的方法嵌入在每个音频帧的固定位置,以同步含水印的内容。

    通常,频率域的音频水印算法具有较好的鲁棒性,常用于需要有较好的抗攻击能力的版权保护方面。当然,将水印嵌入在语音信号中,确实留下了可以用来追踪的信息[9-10]。但是,对于当前多数水印算法而言,翻录攻击后,很难在翻录的语音中提取到正确的水印信息[11-12]。这意味着当前多数的音频水印算法在语音信号的溯源追踪方面效果不显著。

    考虑到当下对敏感数字语音溯源追踪的需求,本文提出了一种鲁棒的抗翻录攻击的语音水印算法。定义了离散余弦系数对数均值(discrete cosine transform coefficients logarithm mean,DCT-CLM)的特征,分析了该特征对翻录攻击的鲁棒性。将语音信号分帧,各帧的帧号映射为同步信息,和水印一起采用量化DCT-CLM特征的方法嵌入到各语音帧中。含水印语音在去同步攻击后,通过帧号可以使含水印内容再同步,进而提取有用的水印信息。实验分析了该算法的抗去同步攻击和翻录攻击的能力,验证了本算法对去同步攻击和翻录攻击的鲁棒性。

    • 对语音信号A进行DCT后得到系数$C = \left\{ {{c_u}\mid 1 \le n \le N} \right\}$,由系数C计算语音信号A的DCT-CLM特征,如下所示:

      $$ F = \left| {\mathop \sum \limits_{n = 1}^N {\rm{lo}}{{\rm{g}}_2}\frac{{\left| {{c_n}} \right|}}{\alpha }} \right|/N $$ (1)

      式中,$\alpha $为系统密钥,$\alpha > 0$;${{c_n}}$为第n个DCT系数,${c_n} \ne 0$(若${c_n} = 0$,将${{c_n}}$赋值为一个较小的值参与式(1)的计算,如将${{c_n}}$赋值为0.000 1),且$\left| {{c_n}} \right|/\alpha < 0$;N为DCT系数的个数,$1 \le n \le N$。由式(1)可得,C中包含幅值大的系数越多,则DCT-CLM特征越小;相反,DCT-CLM特征越大。在鲁棒性分析中,也能看出DCT-CLM特征的该性质。

    • 一般而言,和音频信号相比,语音信号采样频率较低。随机选取一段长为L、采样频率为8 kHz的语音信号,记为S,如图 1所示。步骤如下:

      图  1  原始语音信号

      Figure 1.  Original Speech Signal

      1)将S分为P帧,第i帧记为Si,每帧长为N

      2)对Si进行DCT,计算其DCT-CLM特征,记为Fi

      对语音信号进行翻录攻击,翻录后的信号记为S',如图 2所示。重复上述步骤1)和2),将S'分帧,并计算各帧的DCT-CLM特征。图 3给出了语音信号S和翻录攻击后信号S'各帧的DCT-CLM特征,其中每帧长N=500。

      图  2  翻录语音信号

      Figure 2.  Recaptured Speech Signal

      图  3  原始语音信号和翻录语音信号的DCT-CLM特征

      Figure 3.  DCT-CLM Feature of Original and Recaptured Speech Signals

      为了测试DCT-CLM特征抵抗翻录攻击的普适性,选取300段不同的语音信号,并对选取的语音信号进行翻录攻击。按照上述方法,将各语音信号分为100帧。计算300段语音信号各帧攻击前后DCT-CLM特征的差值。图 4给出了攻击前后各帧DCT-CLM特征差值的统计均值。可以看出,攻击前后DCT-CLM特征变化的最大幅度约为0.4,和DCT-CLM特征相比,变化幅度相对较小。若采用量化DCT-CLM特征的方法嵌入水印,可以保证含水印信号在翻录攻击后以较高的概率正确提取嵌入的信息。

      图  4  原始语音信号翻录后DCT-CLM特征的变化幅度

      Figure 4.  Variation Amplitude of DCT-CLM Feature for Original Speech Signal After Being Recaptured

    • 记${W_i} = \left\{ {{w_1}, {w_2} \cdots {w_M}} \right\}$为第i帧要嵌入的信息,其中${w_m} \in \left\{ {0, 1} \right\}$,$1 \le m \le M$。将${W_i}$分为3部分,分别记为${W_{1i}}$、${W_{2i}}$和${W_{3i}}$,${W_{1i}} = \left\{ {{w_m}\left| {1 \le m \le {M_1}} \right.} \right\}$,${W_{2i}} = \left\{ {{w_m}\left| {{M_1} + 1 \le m \le 2{M_1}} \right.} \right\}$,${W_{3i}} = \left\{ {{w_m}\left| {2{M_1} + 1 \le m \le M} \right.} \right\}$。${W_{1i}}$和${W_{2i}}$分别由帧号生成,用来同步含水印的语音帧,这里${W_{1i}} = {W_{2i}}$。${W_{3i}}$为整个水印(版权)信息或者部分水印信息。在水印检测端,同样将一帧含水印的信号分为3部分。从前两部分中提取同步信息${W_{1i}}$和${W_{2i}}$。如果${W_{1i}} = {W_{2i}}$,则表明该帧为同步的含水印内容,并从第3部分中提取水印信息。

    • 假设语音信号为$S = \left\{ {{s_l}\left| {1 \le l \le L} \right.} \right\}$,其中${{s_l}}$表示第l个样本点,L表示信号S的长度。步骤如下:

      1)将语音信号S等分为P帧,第i帧记为${S_i}$,每帧长为NN=L/P。将${S_i}$等分为M段,分别为${S_{i, 1}}, {S_{i, 2}} \cdots {S_{i, M}}$,每段长为${{N_1}}$。

      2)对${S_i}$的第1段${S_{i, 1}}$进行DCT,得到的系数为${C_{i, 1}} = \left\{ {{c_1}, {c_2} \cdots {c_{{N_1}}}} \right\}$。由式(1)计算${S_i}$各段的DCT-CLM特征,第1段的特征记为${F_{i, 1}}$。

      3)按照如下方法来量化特征${F_{i, 1}}$:

      $$ Q{F_{i, 1}} = \left\{ {\begin{array}{*{20}{l}} {{F_{i, 1}}/\varDelta \times \varDelta + \varDelta /2, {\rm{}}{F_{i, 1}}/\varDelta {\rm{mod}}2 = {w_1}}\\ {{F_{i, 1}}/\varDelta \times \varDelta - \varDelta /2, {\rm{}}{F_{i, 1}}/\varDelta {\rm{mod}}2 \ne {w_1}} \end{array}} \right. $$ (2)

      式中,$Q{F_{i, 1}}$表示第1段量化后的DCT-CLM特征;$\left\lfloor \cdot \right\rfloor $表示向下取整;$\varDelta $为量化步长。

      4)由式(3)量化${S_{i, 1}}$的DCT系数,${C_{i, 1}} = \left\{ {{c_1}, {c_2} \cdots {c_{{N_1}}}} \right\}$,其中$C_{i, 1}^ * = \left\{ {c_1^ *, c_2^ * \cdots c_{{N_1}}^ * } \right\}$表示量化后的系数。

      $$ c_n^{\rm{*}} = {\rm{sign}}\left( {{c_n}} \right) \cdot {\left| {{c_n}} \right|^{\frac{{Q{F_{i, 1}}}}{{{F_{i, 1}}}}}} \cdot {\alpha ^{1 - \frac{{Q{F_{i, 1}}}}{{{F_{i, 1}}}}}}, 1 \le n \le {N_1} $$ (3)

      式中,${\rm{sign}}\left( {{c_n}} \right)$为符号函数。当${c_n} \ge 0$时,${\rm{sign}}\left( {{c_n}} \right) = 1$;当${c_n} < 0$时,${\rm{sign}}\left( {{c_n}} \right) = - 1$。

      5)对量化后的DCT系数$C_{i, 1}^ * $进行逆DCT,即可得到嵌入${{w_1}}$的语音信号。

      重复上述步骤,可将${w_2}, {w_3} \cdots {w_M}$嵌入到${S_i}$其他各段${S_{i, 2}}, {S_{i, 3}} \cdots {S_{i, M}}$中。嵌入方法如图 5所示。

      图  5  水印嵌入过程

      Figure 5.  Process of Watermark Embedding

    • 假设含水印信号为${S^ * }$,长度为${L^ * }$,水印提取步骤如下:

      1)和水印嵌入过程相似,对含水印信号${S^ * }$进行分帧,记第i帧信号为$S_i^ * $。将$S_i^ * $等分为M段,即$S_{i, 1}^*, S_{i, 2}^* \cdots S_{i, M}^*$。

      2)对${S_{i, 1}}$进行DCT,计算其DCT-CLM特征,记为$F_{i, 1}^ * $。

      3)由式(4)提取$S_i^ * $第1段$S_{i, 1}^*$中嵌入的信息${w_1^ * }$:

      $$ w_1^{\rm{*}} = \left\lfloor {F_{i, 1}^{\rm{*}}/\Delta } \right\rfloor {\rm{mod}}2 $$ (4)

      重复步骤2)和步骤3),提取$S_i^ * $其他段中嵌入的信息${w_1^{\rm{*}}, w_2^{\rm{*}} \cdots w_M^{\rm{*}}}$。记$W_i^{\rm{*}} = \left\{ {w_1^{\rm{*}}, w_2^{\rm{*}} \cdots w_M^{\rm{*}}} \right\}$,将$W_i^{\rm{*}}$分为3段,即$W_i^{\rm{*}} = \left[{W_{1i}^{\rm{*}}, W_{2i}^{\rm{*}}, W_{3i}^{\rm{*}}} \right]$,这3段分别表示为:$W_{1i}^{\rm{*}} = \left\{ {w_m^{\rm{*}}\left| {1 \le m} \right. \le {M_1}} \right\}$,$W_{2i}^{\rm{*}} = \left\{ {w_m^{\rm{*}}\left| {{M_1} + 1 \le m} \right. \le 2{M_1}} \right\}$,$W_{3i}^{\rm{*}} = \left\{ {w_m^{\rm{*}}\left| {2{M_1} + 1 \le m} \right. \le M} \right\}$。如果$\sum\limits_{m = 1}^{{M_1}} {w_m^{\rm{*}} \oplus w_{m + {M_1}}^{\rm{*}}} = 0$($ \oplus $表示异或操作),表明该帧的内容是同步的,$W_{3i}^{\rm{*}}$为提取的水印信息;如果$\sum\limits_{m = 1}^{{M_1}} {w_m^{\rm{*}} \oplus w_{m + {M_1}}^{\rm{*}}} \ne 0$,则移动样本,将下一个连续的N个样本分帧、分段,提取同步信息并重构帧号,直到从前两段提取的同步信息构造的帧号相等为止。至此,该连续的N个样本即为找到的同步语音帧,可从该帧中提取水印信息。提取和同步水印的流程如图 6所示。

      图  6  提取和同步水印的流程

      Figure 6.  Process of Watermark Extraction and Synchronization

      对于去同步攻击而言,本文给出两类有代表性的攻击方法,分别记为M1和M2。M1是均匀地在含水印信号的每帧中插入等长的其他信号,M2是在含水印信号的某一个位置插入其他信号,分别如图 7图 8所示(为了便于说明,以插入2 000个样本点为例)。如果将含水印信号(被攻击信号)分为和水印嵌入端相同的分帧个数,则图 7所示的信号被均匀地分为10帧,且每帧均包含200个其他的样本;而对于图 8所示的情况而言,随着帧号的增加,每帧中包含攻击前对应帧的样本个数越来越少,这样攻击前后同一帧的内容相差较大,势必影响水印的提取。故对于图 8所示的攻击类型,若采用和嵌入端帧长相等的分法,则攻击后的语音帧和攻击前完全相同(除了最后拼贴的信号之外),水印可以被正确地提取。

      图  7  第1种类型攻击M1分帧方法

      Figure 7.  Segmentation Method for the First Attack M1

      图  8  第2种类型攻击M2分帧方法

      Figure 8.  Segmentation Method for the Second Attack M2

      基于以上分析,对待检测的含水印信号,尝试多种不同的长度(如90%×L/PL/P、110%×L/PL*/P)进行分帧,以提取含水印语音中嵌入的信息,并提高水印提取的正确率。

    • 采用MATLAB对本文算法的综合性能进行仿真测试。选取300段不同类型的采样频率为8 kHz、16位量化的语音信号作为测试样本。对300段语音信号采用不同的录音设备进行翻录攻击,录音设备包括索尼录音笔(PCM-D100)、华为P20和iPhone 6s。实验用到的参数及取值分别为;帧长L=160 000,N=8 000,P=20,M=10,M1=3,$\varDelta $=0.8,$\alpha $=12。

    • 水印的嵌入不应该影响原始信号的听觉质量,常用不可听性来测试水印的嵌入对原始信号听觉质量的影响程度。本文采用主观区分度(subjective difference grades,SDG)和信噪比(signal to noise ratio,SNR)[13]来测试算法的不可听性。

      表 1列出了对300段语音信号测得的SNR值和SDG值(最大值、最小值和均值),其中SDG值由11位听众根据原始信号和含水印信号听觉质量的差异,并根据SDG值评分标准现场打分所得。从表 1的结果可知,本文算法的SNR值和SDG值均大于水印不可感知所要求的最小值,SNR值大于20,SDG值大于-1[13],表明本文水印的嵌入不影响原始信号的听觉质量。

      表 1  含水印信号的SNR值和SDG值

      Table 1.  SNR and SDG Values of Watermarked Signal

      指标 最大值 最小值 均值
      SNR 33.28 27.52 30.73
      SDG -0.84 -0.41 -0.65
    • 用于溯源追踪的水印算法应具有较好的抗攻击能力,在含水印信号被攻击后,应确保水印信息能被正确地提取。本文采用误码率(bit error rates,BER)来测试算法的鲁棒性,误码率越小,说明提取水印的错误率越低,算法的鲁棒性越好。BER的定义如下:

      $$ {\rm{BER}} = \frac{1}{M}\sum\limits_{m = 1}^M {w\left( m \right) \oplus {w^{\rm{*}}}\left( m \right)} $$ (5)

      式中,M表示嵌入水印的长度;$w\left( m \right)$和${w^{\rm{*}}}\left( m \right)$分别表示原始水印信息和提取的水印信息。

    • 表 2给出了对含水印信号进行信号处理和去同步攻击后的BER值。其中,信号处理包括添加高斯噪声(30 dB)、MP3压缩(64 kbit/s和128 kbit/s)、添加回声(40%)。去同步攻击包括抖动攻击,所选参数为1/10、1/100和1/1 000,表示每隔10个、100个和1 000个样本删除一个样本点;变速攻击,所选参数为80%、90%、110%、120%。

      表 2  不同信号处理和去同步攻击后水印提取的BER值

      Table 2.  BER Values of Watermarking After Different Signal Processing Operations and De-synchronization Attacks

      攻击类型 参数 BER/%
      文献
      [9]
      文献
      [10]
      本文
      算法
      信号处理 高斯噪声 30 dB 7 8 0
      回声 40% 5 3 1
      MP3压缩 64 kbit/s 5 4 1
      128 kbit/s 2 3 0
      去同步攻击 抖动攻击 1/10 9 12 1
      1/100 7 8 0
      1/1 000 3 3 0
      变速攻击 80% 16 18 8
      90% 12 16 5
      110% 9 11 3
      120% 14 15 6
      注:嵌入率为10 bit/s,SNR取值约为30 dB

      表 2的结果可得,本文算法在添加高斯噪声、128 kbit/s的MP3压缩以及每隔100个和1 000个样本删除一个样本点的抖动攻击中,水印提取BER值为0。而对于其他类型的信号处理和去同步攻击,虽然BER值有所增加,但低于文献[9]和文献[10]所给算法的测试结果。表明和文献[9]、文献[10]结果相比,本文算法具有更好的抗攻击能力。

    • 对含水印信号,首先采用不同的录音设备对其进行翻录攻击,然后对翻录后的信号进行信号处理和去同步攻击操作。表 3给出了含水印信号在上述攻击后提取的BER值,其中信号处理和去同步攻击的类型和参数同表 2

      表 3  翻录攻击和不同信号处理以及去同步攻击后水印提取的BER值

      Table 3.  BER Values of Watermarking After Recapturing Attack, Different Signal Processing Operations and De-synchronization Attacks

      攻击类型 参数 BER/%
      文献
      [9]
      文献
      [10]
      本文
      算法
      翻录攻击 15 18 4
      信号处理 高斯噪声 30 dB 17 22 4
      回声 40% 16 20 5
      MP3压缩 64 kbit/s 17 19 6
      128 kbit/s 16 17 4
      去同步攻击 抖动攻击 1/10 18 22 6
      1/100 18 21 4
      1/1 000 16 19 4
      变速攻击 80% 25 29 11
      90% 22 26 9
      110% 21 24 6
      120% 23 26 8
      注:嵌入率为10 bit/s,SNR取值约为30 dB

      表 3的结果可得,对于翻录攻击以及在翻录攻击的基础上进行的信号处理和去同步攻击,本文算法和文献[9]、文献[10]所给算法的水印提取BER值均有不同程度的增加。相比而言,对于单纯的翻录攻击,本文算法的BER值为4%,而文献[9]、文献[10]算法的BER值分别为15%和18%。对于在翻录攻击基础上进行的其他攻击,本文算法的BER值同样低于文献[9]、文献[10]算法的BER值,说明本文算法对翻录攻击以及信号处理和去同步攻击具有更好的鲁棒性。

      综合以上测试结果可知,本文算法的水印嵌入是不被听觉感知的,不影响原始语音信号的听觉质量;同时,含水印信号在经过不同类型的攻击后,水印能被准确地提取,表明本文算法具有较好的抗攻击能力。

    • 基于敏感语音内容被翻录后肆意传播的问题,本文提出了一种用于溯源追踪的鲁棒语音水印算法。首先定义了语音信号的DCT-CLM特征;然后分析了该特征在翻录攻击后的变化幅度,得出DCT-CLM特征在翻录攻击前后变化量很小的结论。将帧号和水印一起作为要嵌入的信息,采用量化DCT-CLM特征的方法嵌入在每个语音帧中。含水印信号在去同步攻击后,帧号用来同步被攻击的语音帧。在检测到同步的语音帧后,从同步的语音帧中提取水印信息,用来溯源追踪。和现有的语音水印算法相比,本文算法不仅提高了去同步攻击的水印提取正确率,而且具有抵抗翻录攻击的能力。

参考文献 (13)

目录

    /

    返回文章
    返回