Page 216 - 《应用声学》2023年第3期
P. 216

654                                                                                  2023 年 5 月


             帧的语声信号特征信息。由此可知,当对第t帧带噪                               图 1 的 GRU 是 对 LSTM 网 络 的 简 化 设 计。
             语声增强时,神经网络的输入可表示为                                 GRU网络单元的前向传播可由式(5)表示:
                                             
                                                                      z t = σ(W z x t + U z h t−1 + b z ),
                              Y 1,n−t+1 · · · Y 1,t
                                 .    .   .  
                       φ t =     . .  . .  .   ,      (1)           r t = σ(W r x t + U r h t−1 + b r ),
                                                                                                          (5)
                                          . 
                                                                      a t = tanh(W a U a (h t − 1 ⊙ r t ) + b a ),
                              Y k,n−t+1 · · · Y k,t
             式(1)中,t、k 分别表示第t帧、第k 个频点,n为连续                            h t = (1 − z t ) ⊙ h h−1 + z t ⊙ a t ,
             帧的数量即网络输入的窗长;φ t 表示多帧带噪语声                         式 (5) 中,Z t 、r t 、h t 分别表示更新门、重置门以
             拼接后的特征,用于对第 t 帧中纯净语声成分的估                          及网络单元的输出。其中 ⊙ 为 Hadmard 乘积,σ 为
             计。本文采用非负幅度谱            [22]  特征作为网络的输入            Sigmoid激活函数。
             特征,计算方法可以由(2)表示:
                                                                            h t֓                 h t
                          Z (k,t,n) = ln(φ t + 1),      (2)
                                                                                         1-
             式 (2) 中,n = 1, 2, · · · , N,N 表示拼接的帧数数量,
                                                                                                  ~
             即网络输入的窗长;Z (k,t,n) 表示非负幅度谱特征。                                           r t  z t     h t
                                                                                    σ     σ    tanh
             基于深度学习的语声增强方法利用了神经网络强
             大的复杂映射能力,实现将带噪语声到纯净语声的                                       x t
             复杂映射。神经网络可以表示为复杂函数f x (x),如                                        图 1  GRU 单元
             式(3)所示:                                                           Fig. 1 GRU unit

                           ˆ
                          S (k,t) = f x (Z (k,t,n) ),   (3)    2.2  LCGRU
                                                                   传统的门控循环神经网络 (GRU, LSTM) 能够
             式 (3) 中,带噪语声到纯净语声的复杂映射关系由
                             ˆ
             函数f x (x)表示。S (k,t) 表示估计的第 t帧、第k 个频               有效建模语声信号的长期依赖关系。但是其全连
                                                               接的网络结构忽略了语声信号的时频结构特征,
             点的纯净语声特征。在网络的训练过程中,本文采
                                                               导致语声增强性能下降。对此,本文设计了一种
             用平均绝对误差 (Mean absolute error, MAE) 作为
                                                               LCGRU,采用卷积核替代GRU传统的全连接结构。
             损失函数,如式(4)所示:
                                                               LCGRU网络在对语声信号的时间相关性建模的同
                               M
                            1  ∑                               时保留了语声信号的时频结构特征,降低了网络参
                    MAE =         ||f x (Z (k,t,n) ) − T i ||,  (4)
                            M
                               i=1                             数的数量。针对在深度学习因果式的语声增强方法
             式(4)中,M 表示批量大小,本文设置为128;T i 表示                    中,由于采用了因果式的网络输入 (N + 1 帧),语声
             标签数据 (纯净语声的非负幅度谱特征),即纯净语                          增强性能下降的问题,LCGRU 网络为充分利用先
             声的特征向量。通过多次训练计算损失函数值,经                            前帧 (N 帧) 的语声信号特征,网络单元当前时刻的
             过反向传播调整网络权重,最终获得泛化能力较好                            网络输入融合了上一时刻的网络输入 x t−1 与输出
             的网络模型实现语声增强。                                      h t−1 ,这充分利用了语声信号的先前 N 帧的特征信
                                                               息,极大地提高了网络的语声增强性能。为了缓解
             2 门控循环神经单元                                        网络训练过程中的过拟合问题,本文采用了线性门
                                                               控机制 (Gated linear unit, GLU)  [27]  控制信息的传
             2.1 GRU                                           输。图2为本文设计的LCGRU。

                 传统的循环神经网络能够建模时间相关序列,                              图 2 为 LCGRU 网络的前向传播示意图,图中
             但是容易出现梯度消失的问题,导致模型无法训练,                           x t−1 、h t−1 、x t 分别代表上一时刻的输入、上一时刻
                                                                                              ˜
             对此有学者提出了 GRU,缓解了网络梯度消失,同                          的输出以及当前时刻的输入。f t 、h t 分别表示遗忘
             时能够建模时间序列的长期依赖关系。图 1 为常用                          门与候选隐藏状态。在 LCGRU 网络单元中,首先
             的GRU模型。                                           计算输入特征的带权特征向量:
   211   212   213   214   215   216   217   218   219   220   221