Page 158 - 《应用声学》2022年第4期
P. 158

656                                                                                  2022 年 7 月


                                                               RNN) 利用自身的循环网络结构能够建立当前时刻
             1 信号模型
                                                               输入特征与历史输入特征之间的联系,更适用于映
                                                               射语声相关特征。但是 RNN 在前向传播过程中信
                 考虑单通道加性噪声信号模型。y(n)表示传声
                                                               息冗余过多,网络计算复杂,容易产生梯度消失和梯
             器拾取带噪信号,x(n) 表示干净语声信号,d(n) 表
                                                               度爆炸现象      [22] 。LSTM 在RNN 结构基础上引入了
             示加性噪声信号,与x(n)不相关,n表示采样点,则:
                                                               一个记忆单元结构和一系列的门函数,能够有效控
                           y(n) = x(n) + d(n),          (1)
                                                               制历史信息在当前时刻的流入和流出,在一定程度
             语声增强的目的就是从带噪语声 y(n) 中恢复出干                         上解决了梯度消失和梯度爆炸问题。单个 LSTM模
             净语声 x(n)。对式 (1) 两边同时进行短时傅里叶变                      块包括一个记忆单元和 3个门函数:输入门、遗忘门
             换(Short-time Fourier transform, STFT),可得          和输出门,计算过程如下所示:

                       Y (k, l) = X(k, l) + D(k, l),    (2)      i l = σ (W xi x l + W hi h l−1 + b i ) ,  (4)

             其中,k 表示频率分量,l 表示帧分量。Y (k, l)、                       f l = σ (W xf x l + W hf h l−1 + b f ) ,  (5)
             X(k, l) 和 D(k, l) 分 别 表 示 y(n)、 x(n) 和 d(n) 的       c l = f l ⊗ c l−1
             STFT变换。                                                  + i l ⊗ tanh (W xc x l + W hc h l−1 + b c ) , (6)
                 定 义 第 l 帧 第 k 个 时 频 分 量 处 的 幅 度 谱 估
                                                                 o l = σ (W xo x l + W ho h l−1 + b o ) ,  (7)
                                                  ˆ
             计 误 差 为 d(|X(k, l)|, |X(k, l)|), 其 中 |X(k, l)| 代
                                  ˆ
                                                                 h l = σ (o l ⊗ tanh (c l )) ,            (8)
             表估计 的干净 语 声 ˆx(n) 的 STFT 幅度谱。 在下
                                                  ˆ
             文中, 为方便表述, 使用 {Y k , D k , X k , X k } 代替         其中,l 代表帧分量,σ 代表 sigmoid 函数,tanh 代表
                                        ˆ
             {|Y (k, l)|, |D(k, l)|, |X(k, l)|, |X(k, l)|} 分别表示带  双曲正切函数;x l 、c l 和h l 分别表示第l 帧的网络输
             噪语声 y(n)、噪声 d(n)、干净语声 x(n) 和估计干净                  入、记忆单元和隐状态;W 和 b 分别表示权重和偏
             语声 ˆx(n)的STFT幅度谱。则贝叶斯风险R B ,即估                    置;i l 、f l 和 o l 分别表示输入门、遗忘门和输出门。
                                ˆ
             计误差期望E[d(X k , X k )],可表示为                        当前帧输入特征通过隐状态 h l−1 和记忆单元 c l−1
                        [          ]                           建立与过去时刻输入特征之间的联系。
                                ˆ
                 R B = E d(X k , X k )
                                                                   本文利用 LSTM 网络对不同代价函数的性能
                 ∫ ∫
                            ˆ
               =      d(X k , X k )p (X k , Y (k, l)) dX k dY (k, l)  进行分析。图1 展示了基于 LSTM 的单通道语声增
                 ∫ [∫                             ]            强算法框图。网络输入特征是带噪语声 y(n) 的对
                             ˆ
               =       d(X k , X k )p (X k |Y (k, l)) dX k
                                                               数谱 (Log-power spectra, LPS),即 log Y 。掩蔽函
                                                                                                    2
                                                                                                   k
                 × p (Y (k, l)) dY (k, l) .             (3)    数映射和谱映射是基于深度学习的单通道语声增
                                                               强算法最常用的两类映射方法。掩蔽函数是由计
                 对于一个给定的代价函数,比如 MSE 代价函
                                                               算听觉场景分析概念所延伸出的一类计算目标,如
                         ˆ
                                     ˆ
                                        2
             数,即 d(X k , X k ) = (X k − X k ) ,式 (3) 中的贝叶斯
                                                               理想二值掩蔽(Ideal binary mask, IBM)、理想浮值
                                                  ˆ
             估计可以通过固定 Y (k, l),最小化关于 X k 的内部
                                                               掩蔽 (Ideal ratio mask, IRM) 等。谱映射网络的学
             积分得到    [19] 。
                                                               习目标通常是干净语声的谱特征,如幅度谱或对数
             2 算法原理                                            谱,无需干净语声与噪声之间相互独立的假设。但
                                                               是基于谱映射的算法容易在估计的干净语声谱特
             2.1 深度学习单通道语声增强算法框架                               征上映射出非语声成分,产生人工噪声。Weninger
                 FCN是深度学习算法中最常见的网络结构,它                         等 [23]  提出了一种信号近似 (Signal approximation,
             的输入特征相互独立,没有建立当前输入与历史                             SA) 映射方法,将网络输出值限定在 [0, 1] 之间,然
             信息之间的联系。语声信号有明显的时序特征,当                            后将网络输出与带噪语声幅度谱相乘,得到干净语
             前时刻的语声信息与过去时刻的语声信息具有密                             声幅度谱的估计,网络的训练目标是真实的干净语
             切联系。循环神经网络 (Recurrent neural network,             声幅度谱。这种方法结合了掩蔽函数映射方法和谱
   153   154   155   156   157   158   159   160   161   162   163