Page 91 - 《应用声学》2020年第3期
P. 91

第 39 卷 第 3 期             曾宇等: 贝叶斯优化卷积神经网络公共场所异常声识别                                          411


             果  [12−14] 。Gammatone滤波器的时域表达式如下:                 1.2  公共场所异常声的特征图提取
                        a−1  −2πB w (f i )t                        二维的特征图所包含的信息量大于一维的特
               g i (t) = At  e        cos(2πf i t + φ i )U(t),
                                                               征向量,以特征图作为分类器的输入会增加单次
                      t > 0, 1 6 i 6 a,                 (1)
                                                               分类器训练所包含的信息量,提高训练效率。常用
             式 (1) 中,A 和 a 分别为滤波器增益和阶数,U(t) 为
                                                               的特征图生成方法包括短时傅里叶变换、Mel 谱图
             阶跃函数,f i 和 φ i 分别为中心频率和相位,B w (f i )
                                                               等 [3,15−16] ,短时傅里叶变换和Mel谱图分别表征了
             为 等 效 矩 阵 带 宽 函 数, 其 表 达 式 为 B w (f i ) =
                                                               信号的频域特性和倒谱特性,但没有体现频域特性
             24.7 + 0.108f i 。提取 Gammatone 倒谱系数时,首
                                                               和Mel 倒谱特性的交叉效应。本文整合公共场所异
             先对声信号进行加窗分帧,对每帧信号进行快速傅
                                                               常声的时域特性、频域特性和倒谱特性,构建公共
             里叶变换,然后通过 Gammatone 滤波器组进行滤
                                                               场所异常声的特征图表示,步骤如下:
             波,最后进行离散余弦变换。
                                                                   (1) 对声频文件进行处理,如果声频文件采样
                 异常声往往是突发的,瞬间爆发力较强,能量
                                                               率不同或长度不同则进行重采样并裁剪到同样长
             随时间变化比较明显。声信号的短时能量是信号在
                                                               度,之后得到各声频文件的时域信号 S i (n),式中 i
             一帧时间内的能量值,在一定程度上能反映出信号
                                                               为声频文件标识号;
             在时域的幅度变化情况。对于声信号x i (n),其短时
                                                                   (2) 对时域信号 S i (n) 进行分帧加窗,帧信号时
             能量为
                                                               长为 10∼30 s,得到分帧时域信号 s ij (m),式中 j 为
                                 N
                                 ∑
                                          2
                            E i =   |x i (n)| ,         (2)    帧标识号;
                                 n=1                               (3) 计算时域信号 S i (n) 的第 j 个分帧信号的
             式(2)中,i为帧号,N 为帧长。                                 特征向量 V ij ,该特征向量长度为 28,包含 13 个
                 谱质心是描述音色属性的重要信号特征之一。                          Gammatone 倒谱系数、13 个倍频程功率谱、1 个短
             它是一定频率范围内通过能量加权平均的频率,关                            时能量和1个谱质心;
             联着信号的基频特性;同时它也体现了声音的明亮                                (4) 生成时域信号S i (n)的特征矩阵:
             度,声音明亮度随谱质心增加而增高。对于声信号
                                                                 P i (k, j) = V ij (k), 1 6 k 6 28, 1 6 j 6 N f , (5)
             x i (n),其谱质心为
                                 ∑ K
                                                               式 (5) 中,P i 为特征矩阵,k 和 j 分别为特征矩阵 P i
                                       S ik f k
                                    k=1
                          SC i =  ∑ K       ,           (3)    的行标识和列标识,N f 为帧数;
                                         f k                       (5) 对时域信号 S i (n) 的特征矩阵 P i 进行归一
                                     k=1
                                                                                        ¯
                                                               化,得到归一化的特征矩阵P i ,即:
             式(3)中,i为帧号,K 为离散傅里叶变换的长度,S ik
             为频率f k 处的功率谱值。                                       ¯
                                                                  P i (k, j) =
                 本文提取公共场所异常声的 Gammatone 倒谱
                                                                  2P i (k, j) − (max m P i (k, j) + min m P i (k, j))
             系数、倍频程功率谱、短时能量和谱质心,将这些特                                                                      ,
                                                                        max m P i (k, j) − min m P i (k, j)
             征组合成特征向量,即:
                                                                      1 6 k 6 28, 1 6 j 6 N f ;           (6)
               V = [GTCC, E, Oct, SC],                                                                     ¯
                                                                   (6) 保存时域信号 S i (n) 的归一化特征矩阵 P i
                                                       ],
               GTCC = [GTCC 1 , GTCC 2 , · · · , GTCC N m      作为该信号对应的公共场所异常声声频文件的特
                                   ],                          征图。
               E = [E 1 , E 2 , · · · , E N e
                                           ],
               Oct = [Oct 1 , Oct 2 , · · · , Oct N o
                                                               2 公共场所异常声的感知识别
                                        ],              (4)
               SC = [SC 1 , SC 2 , · · · , SC N c
             式 (4) 中,V 为公共场所异常声特征向量,GTCC                       2.1  卷积神经网络
             为 Gammatone 倒谱系数,E 为短时能量,Oct 为倍                       卷积神经网络是一类包含卷积计算且具有深
             频程功率谱,SC为谱质心,N m 、N e 、N o 和N c 分别                度结构的多层神经网络,是研究和应用最广泛的深
             为 Mel 倒谱系数、短时能量、倍频程功率谱和谱质                         度神经网络。卷积神经网络的局部连接、权值共享
             心的个数。                                             等特性使之可以有效地降低网络的复杂度,减少训
   86   87   88   89   90   91   92   93   94   95   96