Page 217 - 《应用声学》2023年第3期
P. 217

第 42 卷 第 3 期           王玫等: 基于轻量级卷积门控循环神经网络的语声增强方法                                          655


                                 W t֓

                           h t֓
                                            σ
                                                                          ֓
                                                                                            h t
                                 W x֓
                                                         W t֓
                           x t֓
                                            σ

                                                                      σ
                                                                        f t
                                                                                   ~
                                  W x                                             h t
                                                         W t
                                                                                   tanh
                            x t
                                            σ
                                                                           x t              x t
                                                       图 2  LCGRU
                                   Fig. 2 Lightweight convolutional gated recurrent neural network

                      ˆ x t = σ(W x ∗ x t ) ⊙ x t ,            来自于文献 [29] 中的 100 种噪声以及文献 [30] 中的
                                                               15 种噪声。通过在 TIMIT 训练集中随机提取 1000
                      ˆ x t−1 = σ(W x−1 ∗ x t−1 ) ⊙ x t−1 ,  (6)
                                                               条纯净语声与文献[29] 中随机抽取的噪声在信噪比
                     ˆ
                     h t−1 = σ(W h−1 ∗ h t−1 ) ⊙ h t−1 ,
                                                               为 −5 dB、0 dB、5 dB、10 dB 条件下生成 4000 条
             式 (6) 中,x t 、x t−1 、h t−1 分别代表网络当前时刻的             带噪语声作为训练集。通过在 TIMIT 测试集中随
             输入、网络单元上一时刻的输入以及输出;W ∗ 代
                                                               机抽取 200 条纯净语声与文献 [30] 中的噪声同样在
             表网络的卷积核,为可训练参数。得到带权特征向
                                                               −5 dB、0 dB、5 dB、10 dB 信噪比条件下生成 800
                                             ˜
             量后计算遗忘门f t 与候选隐藏状态h t 可由式(7)与                                                                −4
                                                               条带噪语声作为测试集。网络的学习率为1 × 10                     ,
             式 (8)表示:                                                                   −6
                                                               学习率的衰减系数为 1 × 10           。本文采用批量数据
                   f t = σ(W t ∗ ˆx t + W t−1 ∗ ˆx t−1 + b f ),  (7)  的训练方式,批量大小为 128,并采用 MAE 作为网
                   ˜                                    (8)    络的损失函数。为验证所提算法的有效性,本文采
                   h t = tanh(W h ∗ x t + b h ),
                                                               用的对比网络结构为简单 SRNN、GRU以及 LSTM
             式(7)∼(8)中,w ∗ 代表网络的卷积核,本文采用一维
                                                               网络。网络均采用层叠加的方法,网络均采用 4 层
             卷积核替代传统的全连接结构;b ∗ 代表偏置项,为可
                                                               结构,每一层均为 512个神经单元。LCGRU同样采
             学习的参数向量。最后网络的输出可由式(9)表示:
                                                               用4层的网络结构,每一层的卷积核为32,卷积核的
                                             ˆ
                               ˜
                      h t = f t ⊙ h t + (1 − f t ) ⊙ h t−1 ,  (9)
                                                               大小为9。
                                       ˆ
             式(9) 中,f t 为遗忘门的输出,h t−1 为上一时刻输出
                                                               3.2  仿真实验结果与分析
             的带权特征向量。其中 ⊙ 代表 Hadmard 乘积,∗ 代
                                                                   本文采用的评价指标为平均PESQ、平均STOI
             表卷积运算。
                                                               以及SSNR作为对增强后的语声评价。STOI的取值
             3 实验与结果分析                                         范围为 0 ∼ 1 之间 PESQ 的取值范围为 −0.5 ∼ 4.5
                                                               之间。二者均为数值越大,增强后的语声质量与可
             3.1 仿真实验设置                                        懂度越高。统计结果如表1与表2所示。
                 为了验证所提算法的有效性,本文通过在 ten-                           表 1∼2 统计了文献 [30] 中的 4 种噪声 hfchan-
             sorflow/keras 平台上实现网络的搭建及训练,验                      nel、f16、destroyerengine 以及 volvo 在不同信噪比
             证算法的优越性。数据集中的纯净语声来自于                              条下生成的带噪语声经过不同的网络结构增强后
             TIMIT  [28]  数据集,同时包含了不同性别、地区、人                   的平均PESQ以及平均STOI。从表1 ∼ 2中可以得
             种等不同说话人的声频信息,文本方面也不会出                             出,本文所设计的 LCGRU 增强后的语声在 STOI、
             现有重叠,这保证了模型的可推广性。噪声数据集                            PESQ 的得分上均高于传统的网络结构,这充分证
   212   213   214   215   216   217   218   219   220   221   222