Page 90 - 《应用声学》2020年第3期
P. 90
410 2020 年 5 月
的 Mel 倒谱系数进行主成分分析,基于降维后的特
0 引言
征采用矢量量化算法对变压器铁芯未压紧故障进
行检测。
近年来随着公共场所安全问题复杂性的提高,
公共场所中,火灾可能导致严重的财产损失和
公共场所的异常监控和危险预警得到了越来越多
的关注 [1] 。公共场所环境中的声信号包含了大量的 人员伤亡,烟花爆竹燃放也在国内数百个城市中
被禁止,上述研究中没有对此两类安全事件中的
安全信息,异常事件的发生常会伴随特定的异常声。
异常声进行分析和识别。此外不同分类器的模型
声频监控系统用于实时公共安全监控,所需的数据
参数设置对识别结果有影响,上述研究中鲜有对
存储和传输条件都低于视频监控系统,同时也能更
异常声分类器模型的参数优化。本文针对公共场
好地保护隐私。公共场所异常声的识别作为公共场
所异常声的感知和识别问题,提出一种基于贝叶
所声频监控的关键技术之一,具有重要的研究意义
斯优化卷积神经网络的识别方法。提取异常声信
和实用价值。
号的 Gammatone 倒谱系数 (Gammatone cepstrum
对于异常事件的声音识别,学者们进行了一系
coefficient, GTCC)、短时能量、倍频程功率谱和谱
列的研究。韦娟等 [2] 对公共场所异常声进行总体
质心,经过信息融合形成特征图,整合公共场所异常
平均经验模态分解并提取各层信号的Mel倒谱系数
声的时域、频域和倒谱特性。以卷积神经网络为分
(Mel-frequency cepstrum coefficient, MFCC)、短时
类器,设计递增的卷积核尺度和池化操作以处理不
能量和能量比,采用改进的决策导向无环图支持向
同尺度的特征,构建批量归一化层和丢弃层以提高
量机(Support vector machine, SVM) 对枪声、爆炸
网络模型的泛化能力。提取该卷积神经网络的网络
声、玻璃破碎声、说话声和脚步声进行识别。胡涛
结构参数和网络训练参数,基于贝叶斯优化算法对
等 [3] 将公共场所异常声分帧后各帧的 Mel 倒谱系
卷积神经网络的模型参数进行优化,对包括火苗噼
数及其一阶、二阶差分按照时间先后顺序沿着不同
啪声、婴儿啼哭声、烟花燃放声、玻璃破碎声和警报
方向排列分别形成二维和一维特征图,采用卷积神
声的 5 种公共场所异常声进行识别。最后分析比较
经网络对爆炸声、玻璃破碎声、枪声、警报声、开关
了基于不同的特征提取和分类器方案得到的识别
门声和哭声进行识别。李伟红等 [4] 提出改进的极点
结果,并对本文方法在不同信噪比噪声干扰下的识
对称模态分解特征提取方法,采用支持向量机对爆
别效果进行验证。
炸声、尖叫声、枪声与玻璃破碎声进行识别。罗森
林等 [5] 以 Mel 倒谱系数为特征,将分别使用高斯混
1 公共场所异常声的特征提取
合模型 (Gaussian mixed model, GMM) 和支持向
量机获得的识别结果进行融合,对两类枪声进行识 1.1 公共场所异常声的特征表示
别。刘鑫锦等 [6] 提取岩石脆性破坏时声信号的 Mel 公共场所异常声属于环境声,由于环境声与语
倒谱系数、谱质心和过零率作为特征,采用高斯混 声的相似性,语声识别中的典型特征参数也常用于
合模型对颗粒弹射和岩板劈裂情况进行检测。苏国 环境声识别中。倍频程功率谱分析是最常用的声信
韶等 [7] 提取岩爆过程声信号的波形持续时间、主频 号处理方法之一,倍频程功率谱谱线少频带宽,符合
及短时能量作为特征,基于随机森林对颗粒弹射、 人耳知觉频带低频部分较窄、高频部分较宽的特点,
岩板劈裂和块片弹射情况进行识别。张铁民等 [8] 提 表征了环境声信号的声学特性。
取鸡叫声的短时过零率和短时能量,采用模糊神经 Mel倒谱系数是语声识别和说话人识别的有效
网络对禽流感病鸡进行识别。韩磊磊等 [9] 提取生猪 特征之一,但其在低信噪比环境下识别效果较差。
异常声的 Mel 倒谱系数及其一阶、二阶差分,采用 Gammatone 滤波器可以模拟人耳基底膜的时频分
支持向量机对生猪打斗声、咳嗽声、喷嚏声、饥饿 析功能,在噪声条件下具有较强的抗干扰性,滤波
声和呛水声进行识别。杨元威等 [10] 基于KS检验和 效果更好,且经过 Gammatone 滤波后的信号能够
ReliefF 算法对高压断路器故障时的声信号进行特 更好增强目标识别系统的鲁棒性。将Mel 倒谱系数
征提取和选择,采用支持向量机对线圈电源低压、电 计算中的滤波器替换为 Gammatone 滤波器得到的
磁铁卡阻、合闸弹簧疲劳、脱扣延迟和传动阻尼增 Gammatone倒谱系数已应用于声音识别中,在不同
大情况进行检测。王丰华等 [11] 对变压器噪声信号 背景噪声环境下取得比Mel倒谱系数更好的识别效