Page 95 - 《应用声学》2020年第3期
P. 95
第 39 卷 第 3 期 曾宇等: 贝叶斯优化卷积神经网络公共场所异常声识别 415
юᆸဋ Ըڀဋ Fϙ 率谱、短时能量和谱质心,组合成声信号的特征图。
100
设计了包含多个卷积层和池化层的卷积神经网络
80
作为分类器,采用递增的卷积核设置和池化操作处
४Ѭ/% 60 理不同尺度的特征,并增加批量归一化层和丢弃层
以避免过拟合。采用高斯过程模型和基于提升概率
40
和提升量的策略构建概率代理模型和采集函数,基
于贝叶斯优化算法对卷积神经网络模型的设计变
20
量进行优化,对包括火苗噼啪声、婴儿啼哭声、烟花
0 燃放声、玻璃破碎声和警报声的 5 种公共场所异常
༢ᔠٰܦ ޯЈהชܦ ཏ༢྇ஊܦ ဝၕᆡᆿܦ ઑܦ 声进行识别。该方法的识别结果与基于 MFCC 或
पܦᮃዝی MFCC+GTCC的特征提取、基于 GMM 或 SVM 的
分类器得到的识别效果进行比较,结果表明该方法
图 4 本文方法的异常声识别结果
Fig. 4 Results of abnormal voice recognition 的识别效果优于其他特征提取和分类器方案的识
based on my method 别效果。最后分析了该方法在不同信噪比噪声干扰
下的识别结果,验证了该方法的有效性。
88
87
86
参 考 文 献
85
४Ѭ/% 84 ࣱکюᆸဋ [1] 袁宏永, 苏国锋, 付明. 城市安全空间构建理论与技术研究 [J].
83
ࣱکԸڀဋ 中国安全科学学报, 2018, 28(1): 185–190.
82
ࣱکFϙ Yuan Hongyong, Su Guofeng, Fu Ming. Study and ap-
81 plication of architecture method and technology of urban
80 safety space[J]. China Safety Science Journal, 2018, 28(1):
79 185–190.
-10 -5 0 5 10
[2] 韦娟, 岳凤丽, 仇鹏, 等. 基于 EEMD 的异常声音多类识
η٪උ/dB
别算法 [J]. 华中科技大学学报 (自然科学版), 2018, 46(7):
图 5 本文方法在噪声干扰下的异常声识别结果 117–121.
Wei Juan, Yue Fengli, Qiu Peng, et al. Abnormal sound
Fig. 5 Results of abnormal voice recognition un-
multiclass recognition algorithm based on EEMD[J]. Jour-
der different SNR
nal of Huazhong University of Science and Technol-
信噪比的增大而提高,信噪比为 −10 dB 时平均准 ogy(Natural Science Edition), 2018, 46(7): 117–121.
[3] 胡涛, 张超, 程炳, 等. 卷积神经网络在异常声音识别中的研
确率、平均召回率和平均 F 值分别为 80.1%、80.0% 究 [J]. 信号处理, 2018, 34(3): 357–367.
和80.0%,本文方法在噪声干扰下识别效果较好。主 Hu Tao, Zhang Chao, Cheng Bing, et al. Research on ab-
要原因在于本文方法的特征提取部分用抗干扰性 normal audio event detection based on convolutional neu-
ral networks[J]. Journal of Signal Processing, 2018, 34(3):
更好、鲁棒性更强的 Gammatone 倒谱代替 Mel 倒
357–367.
谱,而批量归一化层和丢弃层的构建也增强了分类 [4] 李 伟 红, 田 真 真, 龚 卫 国, 等. 改 进 的 ESMD 用 于 公 共
器的泛化能力。因此本文方法可以有效地对火苗噼 场所异常声音特征提取 [J]. 仪器仪表学报, 2016, 37(11):
2429–2437.
啪声、玻璃破碎声、婴儿啼哭声、烟花燃放声和警报
Li Weihong, Tian Zhenzhen, Gong Weiguo, et al. Devel-
声5种异常声进行识别。 oped ESMD for the feature extraction of abnormal sound
in public places[J]. Chinese Journal of Scientific Instru-
4 结论 ment, 2016, 37(11): 2429–2437.
[5] 罗森林, 王坤, 谢尔曼, 等. 融合 GMM 及 SVM 的特定音频
本文针对公共场所异常声的感知和识别问题, 事件高精度识别方法 [J]. 北京理工大学学报, 2014, 34(7):
716–722.
提出一种基于贝叶斯优化卷积神经网络的识别方
Luo Senlin, Wang Kun, Xie Erman, et al. High-precision
法。提取声信号的Gammatone倒谱系数、倍频程功 specific audio event recognition method combining SVM