Page 90 - 《应用声学》2020年第3期
P. 90

410                                                                                  2020 年 5 月


                                                               的 Mel 倒谱系数进行主成分分析,基于降维后的特
             0 引言
                                                               征采用矢量量化算法对变压器铁芯未压紧故障进
                                                               行检测。
                 近年来随着公共场所安全问题复杂性的提高,
                                                                   公共场所中,火灾可能导致严重的财产损失和
             公共场所的异常监控和危险预警得到了越来越多
             的关注   [1] 。公共场所环境中的声信号包含了大量的                      人员伤亡,烟花爆竹燃放也在国内数百个城市中
                                                               被禁止,上述研究中没有对此两类安全事件中的
             安全信息,异常事件的发生常会伴随特定的异常声。
                                                               异常声进行分析和识别。此外不同分类器的模型
             声频监控系统用于实时公共安全监控,所需的数据
                                                               参数设置对识别结果有影响,上述研究中鲜有对
             存储和传输条件都低于视频监控系统,同时也能更
                                                               异常声分类器模型的参数优化。本文针对公共场
             好地保护隐私。公共场所异常声的识别作为公共场
                                                               所异常声的感知和识别问题,提出一种基于贝叶
             所声频监控的关键技术之一,具有重要的研究意义
                                                               斯优化卷积神经网络的识别方法。提取异常声信
             和实用价值。
                                                               号的 Gammatone 倒谱系数 (Gammatone cepstrum
                 对于异常事件的声音识别,学者们进行了一系
                                                               coefficient, GTCC)、短时能量、倍频程功率谱和谱
             列的研究。韦娟等         [2]  对公共场所异常声进行总体
                                                               质心,经过信息融合形成特征图,整合公共场所异常
             平均经验模态分解并提取各层信号的Mel倒谱系数
                                                               声的时域、频域和倒谱特性。以卷积神经网络为分
             (Mel-frequency cepstrum coefficient, MFCC)、短时
                                                               类器,设计递增的卷积核尺度和池化操作以处理不
             能量和能量比,采用改进的决策导向无环图支持向
                                                               同尺度的特征,构建批量归一化层和丢弃层以提高
             量机(Support vector machine, SVM) 对枪声、爆炸
                                                               网络模型的泛化能力。提取该卷积神经网络的网络
             声、玻璃破碎声、说话声和脚步声进行识别。胡涛
                                                               结构参数和网络训练参数,基于贝叶斯优化算法对
             等  [3]  将公共场所异常声分帧后各帧的 Mel 倒谱系
                                                               卷积神经网络的模型参数进行优化,对包括火苗噼
             数及其一阶、二阶差分按照时间先后顺序沿着不同
                                                               啪声、婴儿啼哭声、烟花燃放声、玻璃破碎声和警报
             方向排列分别形成二维和一维特征图,采用卷积神
                                                               声的 5 种公共场所异常声进行识别。最后分析比较
             经网络对爆炸声、玻璃破碎声、枪声、警报声、开关
                                                               了基于不同的特征提取和分类器方案得到的识别
             门声和哭声进行识别。李伟红等               [4]  提出改进的极点
                                                               结果,并对本文方法在不同信噪比噪声干扰下的识
             对称模态分解特征提取方法,采用支持向量机对爆
                                                               别效果进行验证。
             炸声、尖叫声、枪声与玻璃破碎声进行识别。罗森
             林等  [5]  以 Mel 倒谱系数为特征,将分别使用高斯混
                                                               1 公共场所异常声的特征提取
             合模型 (Gaussian mixed model, GMM) 和支持向
             量机获得的识别结果进行融合,对两类枪声进行识                            1.1  公共场所异常声的特征表示
             别。刘鑫锦等      [6]  提取岩石脆性破坏时声信号的 Mel                    公共场所异常声属于环境声,由于环境声与语
             倒谱系数、谱质心和过零率作为特征,采用高斯混                            声的相似性,语声识别中的典型特征参数也常用于
             合模型对颗粒弹射和岩板劈裂情况进行检测。苏国                            环境声识别中。倍频程功率谱分析是最常用的声信
             韶等  [7]  提取岩爆过程声信号的波形持续时间、主频                      号处理方法之一,倍频程功率谱谱线少频带宽,符合
             及短时能量作为特征,基于随机森林对颗粒弹射、                            人耳知觉频带低频部分较窄、高频部分较宽的特点,
             岩板劈裂和块片弹射情况进行识别。张铁民等                     [8]  提   表征了环境声信号的声学特性。
             取鸡叫声的短时过零率和短时能量,采用模糊神经                                Mel倒谱系数是语声识别和说话人识别的有效
             网络对禽流感病鸡进行识别。韩磊磊等                  [9]  提取生猪      特征之一,但其在低信噪比环境下识别效果较差。
             异常声的 Mel 倒谱系数及其一阶、二阶差分,采用                         Gammatone 滤波器可以模拟人耳基底膜的时频分
             支持向量机对生猪打斗声、咳嗽声、喷嚏声、饥饿                            析功能,在噪声条件下具有较强的抗干扰性,滤波
             声和呛水声进行识别。杨元威等               [10]  基于KS检验和        效果更好,且经过 Gammatone 滤波后的信号能够
             ReliefF 算法对高压断路器故障时的声信号进行特                        更好增强目标识别系统的鲁棒性。将Mel 倒谱系数
             征提取和选择,采用支持向量机对线圈电源低压、电                           计算中的滤波器替换为 Gammatone 滤波器得到的
             磁铁卡阻、合闸弹簧疲劳、脱扣延迟和传动阻尼增                            Gammatone倒谱系数已应用于声音识别中,在不同
             大情况进行检测。王丰华等             [11]  对变压器噪声信号           背景噪声环境下取得比Mel倒谱系数更好的识别效
   85   86   87   88   89   90   91   92   93   94   95