Page 94 - 《应用声学》2020年第3期
P. 94

414                                                                                  2020 年 5 月


             高斯混合模型 (GMM)、支持向量机 (SVM) 作为分                             100
                                                                             MFCC
             类器的比较对象,高斯混合模型和支持向量机也都                                          MFCC+GTCC
                                                                      80     వ஡வข
             采用贝叶斯优化进行模型参数优化,高斯混合模型
             的优化参数为阶数,支持向量机的优化参数为惩罚                                   60
             系数和径向基核尺度,优化过程最长时间均为20 h。                               ࣱکюᆸဋ/%
             训练集、验证集和预测集的分割比例为 6 : 2 : 2,                             40
             即训练集、验证集和预测集中的样本数分别为 600、
                                                                      20
             200和200。每类异常声的200个样本中,120个样本
             用于训练分类器,40 个样本用于贝叶斯优化分类器                                  0
                                                                            GMM        SVN      వ஡வข
             参数,40个样本用于预测。                                                             Ѭዝ٨

             3.1 异常声识别结果评价指标                                               图 1  异常声识别平均准确率
                 每类异常声识别结果的评价指标包括准确率、                             Fig. 1 Average precise ratio of abnormal sound
             召回率、F值,其计算表达式为                                       recognition
                    TP i          TP i          P i R i
              P i =       , R i =      , F i = 2     , (18)
                   TPFP i        TPFN i        P i+ R i
                                                                     100
             式 (18) 中,P i 、R i 和 F i 分别为第 i 种异常声识别的                          MFCC
                                                                             MFCC+GTCC
             准确率、召回率和 F 值,TP i 为预测集中第 i 种异常                           80     వ஡வข
             声被正确识别出的数量,TPFP i 为预测集中被预测
             为第 i 种异常声的数量,TPFN i 为预测集中第 i 种                          ࣱکԸڀဋ/%  60
             异常声的数量。                                                  40
                 本文的异常声识别问题为多分类问题,以异常
             声识别的准确率、召回率和 F 值分别求均值所得到                                 20
             的平均准确率、平均召回率和平均 F 值作为异常声
                                                                       0
             识别结果的综合评价指标。                                                   GMM        SVN      వ஡வข
                                                                                      Ѭዝ٨
             3.2 异常声识别结果
                                                                           图 2  异常声识别平均召回率
                 不同特征提取和分类器方案的异常声识别结
                                                                  Fig. 2  Average recall ratio of abnormal sound
             果如图 1∼3 所示,本文方法对不同类别异常声的识
                                                                  recognition
             别结果如图 4 所示。本文方法对 5 种异常声识别的
             平均准确率、平均召回率和平均F值均为最高,分别
                                                                     100
             为 91.3%、91.5% 和 91.0%,其识别效果优于其他特
                                                                              MFCC
             征提取和分类器方案。主要原因在于本文方法整合                                   80      MFCC+GTCC
                                                                              వ஡வข
             了声信号的时域、频域和倒谱域特征,与单独使用
             Mel 倒谱特征或整合使用 Mel 和 Gammatone 两种                         60
             倒谱特征相比,可以更全面地表征公共场所异常声                                  ࣱکFϙ/%  40
             的特性。此外本文方法的分类器通过递增的卷积核
             尺度和池化操作设计可以处理公共场所异常声不                                    20
             同尺度的特征,而文中的高斯混合模型和支持向量
             机分类器在多尺度特征分析方面有所不足。                                       0    GMM        SVN      వ஡வข
                 为了考察本文方法在噪声干扰下的识别效果,                                                 Ѭዝ٨
             在声音文件中加入信噪比分别为 −10 dB、−6 dB、                                  图 3  异常声识别平均 F 值
             0 dB、10 dB 的高斯白噪声,本文方法在不同信噪比                         Fig. 3 Average F score of abnormal sound recog-
             噪声干扰下的识别结果如图 5 所示。识别结果随着                             nition
   89   90   91   92   93   94   95   96   97   98   99