Page 219 - 《应用声学》2023年第3期
P. 219

第 42 卷 第 3 期           王玫等: 基于轻量级卷积门控循环神经网络的语声增强方法                                          657


                 从图 3 中可以得出,LCGRU 网络结构相对于                       表 5   不同网络模型处理一帧语声数据所需要的时间
             传统的网络结构 (SRNN, GRU, LSTM) 增强后的                     Table 5 The time of different models to process
             语声 SSNR 更高。SRNN 网络结构虽然在图 3(a)、                     a frame of data
             图 3(b) 中 在 低 信 噪 比 条 件 下 的 语 声 SSNR 高 于
                                                                    模型      SRNN    GRU     LSTM    LCGRU
             GRU、LSTM,但是依然低于 LCGRU,同时随着
             信噪比的提高其性能逐渐低于 GRU、LSTM。然而,                            时间/ms    0.8445  1.0115  1.8197  2.1136
             可以看出LCGRU网络依然拥有较好的语声增强性
                                                                   从表 3 可以得出 LCGRU 网络的参数数量为
             能,这证明了相对于传统的网络结构(GRU, LSTM,
                                                               GRU网络的13%,为LSTM网络的9.82%。LCGRU
             SRNN),LCGRU的鲁棒性更好。
                                                               网络的参数数量得到大幅度减少,这得益于本文采
                 综 上 所 述, LCGRU 网 络 相 对 于 传 统 的 网
                                                               用卷积核替代传统的全连接结构。从表 4 中可以看
             络结构 (SRNN, GRU, LSTM) 在增强后的 STOI、
                                                               到,LCGRU获得了最低的损失值,这证明了该网络
             PESQ、SSRN 等评价指标上获得更高的得分。而
                                                               结构能够更好地建模带噪语声到纯净语声的复杂
             LSTM 相对于 GRU、SRNN 拥有更好的语声增强性
                                                               映射关系。从表 5 可以看出,本文所提算法相对耗
             能,但是其参数数量较多,导致网络训练困难,同
                                                               时,这是由于本文采用卷积核做特征计算,计算量相
             时容易出现过拟合的问题。而LCGRU 网络因为采
                                                               对较大,但依然满足实时性要求。
             用了卷积核替代了传统循环神经网络的全连接结
             构,同时采用了线性门控机制控制信息的传输,因                            4 结论
             此不但极大地减少了网络的参数数量,同时保留了
             语声信号的时频结构特征,从而获得了较好的语声                                针对传统的循环神经网络因采用全连接的网
             增强性能。针对在深度学习因果式语声增强方法中                            络结构忽略了语声信号的时频结构特征,本文采用
             因采用因果式的网络输入导致语声增强性能下降                             卷积核替代了传统的全连接结构,在对语声信号的
             的问题,LCGRU 为充分利用先前帧的语声信号特                          长期依赖关系建模的同时,保留了其时频结构特征
             征,在 LCGRU 网络单元当前时刻的输入中融合了                         信息,极大降低了网络的参数数量。针对基于深度
             上一时刻的输入 x t−1 与输出 h t−1 ,这充分利用了先                  学习的因果式语声增强方法中因采用了因果式的
             前N 帧的语声信号特征,降低了因为采用因果式网                           网络输入导致语声增强性能下降的问题,本文设计
             络输入特征信息减少所带来的影响。表3、表4 统计                          了一种 LCGRU网络结构。为充分利用先前帧的语
             了不同网络结构的参数数量,以及模型收敛后的绝                            声信号特征,在 LCGRU 网络单元当前时刻的输入
             对误差;表 5 中统计了采用不同网络模型 NVIDIA                       中融合了上一时刻的输入x t−1 与输出 h t−1 ,这充分
             GeForce MX350 环境下,GPU 平台中处理一帧带                    利用了先前 N 帧的语声信号特征,降低了因为采用
             噪语声数据所需要的平均时间。                                    因果式网络输入特征信息减少所带来的影响。注意
                                                               力机制能够更好地关注到带噪语声中纯净语声成
                      表 3   不同网络模型的参数数量
                                                               分。此外,在语声和声频处理领域,利用人耳掩蔽效
                Table 3 Parameters of different network
                                                               应,取得了极大成功。下一步将研究利用注意力机
                models
                                                               制结合人耳掩蔽效应提高网络的语声增强性能。同
                  模型       SRNN    GRU    LSTM    LCGRU        时,为了缩短模型的计算时间,将采用扩张卷积等方
                                                               式做进一步的改进,以提升系统的性能。
                参数量/10 6   1.969   5.781  7.678    0.754

                      表 4   不同网络模型的验证损失
                                                                              参 考 文        献
                Table 4 Verification loss of different net-
                work models
                                                                 [1] Cui X, Chen Z, Yin F. Speech enhancement based on sim-
                                                                   ple recurrent unit network[J]. Applied Acoustics, 2020,
                模型      SRNN     GRU     LSTM    LCGRU
                                                                   157: 107019.
                MAE    0.01805  0.01610  0.01680  0.01354        [2] Loizou P. Speech enhancement: theory and practice[M].
                                                                   Boca Raton: CRC Press, 2007.
   214   215   216   217   218   219   220   221   222   223   224