Page 224 - 《应用声学》2023年第3期
P. 224

662                                                                                  2023 年 5 月


             1.3 呼吸声的倒谱系数计算                                    式(2)中,x (m)为经过预处理之后的声频离散序列,
                 声音频谱包络含有共振峰信息。而提取呼吸                           X(k)为经过FFT变换的频域信号。
             声的特征值重点就在于如何提取频谱包络                     [10] 。频        (3) 对输入呼吸声所在的频域范围内设置一系
             谱图反映的是整个声音信号的频谱分布,但是人耳                            列的滤波器,这些滤波器组成 Mel 滤波器组。其滤
             的听觉感知不是整个频谱范围,而是在某些特定的                            波器的设置满足式(3)中的关系:
             频谱范围。MFCC是最常见的语声特征。MFCC模
                                                                H m (k) =
             拟了人耳的听觉特性,将原始频谱经过 Mel 频谱变                           
             换之后转化为基于 Mel 频谱的非线性频谱进行分                            0,                k < f(m − 1),
                                                                 
                                                                 
                                                                 
                                                                  k − f(m − 1)
                                                                 
             析  [11] 。这样做的好处是对呼吸声信号进行降维,更                        
                                                                 
                                                                                  , f(m − 1) 6 k 6 f(m),
                                                                  f(m) − f(m − 1)
             容易得到呼吸声信号的特征值              [12] 。                                                            (3)
                                                                 
                 Mel 滤波器将信号的不同频率映射到 Mel 频                         f(m + 1) − k
                                                                 
                                                                                  , f(m) 6 k 6 f(m + 1),
                                                                 f(m + 1) − f(m)
                                                                 
             率,以此来模拟人耳的听觉系统。式(1) 是两者的变                           
                                                                 
                                                                 
                                                                  0,               k > f(m + 1),
             换关系:
                                      (       )
                                            f                  式 (3) 中,k 指的输入信号的频谱分量,m指第 M 个
                      f Mel = 1125 × ln 1 +     ,       (1)
                                           700                 滤波器,f(m) 指滤波器的中心频率。这里滤波器组
             式 (1) 中,f 对应的是输入声音信号的频率,f Mel 表                   个数m设置为26。
             示经过 Mel 变换的听觉感知频率。图 4 为 Mel 滤波                        (4) 根据式 (4) 计算每个滤波器输出的对数能
             器组在人耳感知范围内的频响图。从图 4 中可以看                          量。然后根据式 (5) 做离散余弦变换 (Discrete Co-
             出滤波器组对低频段更加敏感并且其分布更加密                             sine transform, DCT),进而得到具有 13 个维度的
             集。这一分布情况与人耳的感觉特性是一致的                     [13] 。
                                                               Mel倒谱系数。
                  1.0                                                        [ N−1               ]
                                                                               ∑
                                                                                         2
                  0.9                                              S (m) = ln      |X (k)| H m (k) ,      (4)
                  0.8                                                          k=0
                  0.7                                                      √    M−1          [           ]
                                                                              2  ∑            πn(2m − 1)
                  0.6                                            mfcc(n) =          S(m) cos              ,
                ࣨϙ  0.5                                                      M  m=0               2M
                  0.4                                                                                     (5)
                  0.3
                                                               式(5)中,M 为滤波器的个数,n为DCT计算之后的
                  0.2
                                                               特征个数。
                  0.1
                   0                                               经过以上计算得到的 Mel 倒谱系数可以作为
                    0  500  1000 1500 2000 2500 3000 3500 4000
                                   ᮠဋ/Hz                       该呼吸声的特征值。该特征值后续可以作为动态时
                                                               间规整 (Dynamic time warping, DTW) 处理的数
                            图 4  Mel 滤波器组
                                                               据内容。
                           Fig. 4 Filter banks
                 对信号进行倒谱分析需要经过如下的过程:                           1.4  DTW
                 (1) 人体的呼吸声在一个呼吸周期内是一种非                            提取呼吸声的 MFCC 特征值会得到一个随时
             平稳时变信号。对呼吸声音进行预加重、分帧和加                            间变化特征的序列,但由于不同个体在呼吸过程中,
             窗处理之后可以将信号认为是一种平稳时不变信                             其呼吸时间长短并不是固定的。为了计算特征序列
             号  [14] 。这些处理可以提升信号中的高频部分,突出                      的相似性,需要使特征序列保有最大的相似度。因
             高频的共振峰,同时也可以减少信号的频谱泄露。                            此需要 DTW 自动扭曲时间序列,也即对时间片段
                 (2) 对经过预处理之后的信号进行快速傅里叶                        进行局部缩放,此时计算的两段序列相似度 (序列
             变换 (Fast Fourier transform, FFT) 将时域信号转           距离) 更为准确。图 5 显示的是两个序列波形相似
             化为频域信号:                                           但是时间轴上未对齐的片段在经过 DTW处理之后

                          X(k) = FFT [x (m)] ,          (2)    寻找到相似对齐点,其中虚线指示的为序列对齐点。
   219   220   221   222   223   224   225   226   227   228   229