Page 215 - 《应用声学》2023年第3期
P. 215

第 42 卷 第 3 期           王玫等: 基于轻量级卷积门控循环神经网络的语声增强方法                                          653


                                                               量、语声可懂度等评价指标上得到了非常大的提升。
             0 引言
                                                               循环神经网络能够建模语声信号的时间相关性,因
                                                               此许多文献常常采用循环神经网络实现对带噪语
                 语声信号是人与人、人与智能设备之间传递信
                                                               声信号的建模       [22−24] 。但是循环神经网络存在参数
             息的重要载体之一。在现实生活环境中,各种各样
                                                               数量巨大的问题,这不利于模型的推广,同时,在训
             噪声的干扰,严重影响了语声信号的质量与可懂度,
             给人们带来了糟糕的听觉体验,同时阻碍了人与人                            练阶段易出现过拟合导致模型泛化能力较差。
                                                                   本文针对传统的基于循环神经网络的语声增
             之间的交流,以及人与智能设备之间的交互。因此,
                                                               强方法中,其全连接的结构忽略了语声信号的时
             语声增强是语声信号处理中不可或缺的一部分                       [1] 。
                                                               频结构特征      [25] ,导致语声增强性能下降,同时参
             语声增强的目标是尽可能地从带噪语声中还原出
                                                               数数量巨大的问题,设计了一种采用卷积核替代循
             纯净语声    [2] ,从而提高语声质量和语声可懂度等评
                                                               环神经网络中的全连接结构的轻量级卷积门控循
             价指标。
                                                               环神经网络 (Lightweight convolution gated recur-
                 传统的语声增强技术经过不断发展,衍生出了
                                                               rent neural network, LCGRU),在提高网络性能的
             多种基于数字信号处理和统计学的语声增强算法。
                                                               同时降低了网络参数的数量。针对在基于深度学
             经典的传统语声增强算法有谱减法                  [3−4] 、维纳滤
                                                               习因果式语声增强的方法中采用了因果式的网络
             波  [5−7] 、子空间 [8]  等。在传统的谱减法中,语声增
                                                               输入 (N + 1 帧) 导致语声增强性能下降的问题,本
             强的效果主要依赖于对带噪语声中噪声频谱的估
                                                               文充分利用了先前 N 帧的带噪语声信号特征,在
             计,对噪声频谱的估计一般在静音部分实现。然而,
                                                               LCGRU 网络当前时刻网络单元的输入中融合了
             在现实中,对噪声频谱的准确估计是非常困难的一
                                                               上一时刻的输入 x t−1 与输出 h t−1 ,这充分利用了
             项工作。在基于子空间的语声增强方法中,通过将
                                                               先前 N 帧的语声信号特征           [26] 。针对网络训练过程
             带噪语声分解为不同的子空间成分,这些不同的子
                                                               中易出现过拟合的问题,本文采用了线性门控机
             空间分别代表语声成分和噪声成分                 [9−11] 。传统的
                                                               制 [27]  控制网络信息的传输,进一步提高了网络的
             语声增强算法在平稳噪声条件下性能比较稳定,但
                                                               语声增强性能。仿真实验结果表明,LCGRU 在增
             是在非平稳噪声条件下的性能急剧恶化                  [12] ,这是由
                                                               强后的语声短时客观可懂度 (Short time objective
             于其本身存在着一些不合理的假设。
                                                               intelligibility, STOI)、语声感知质量 (Perceptual
                 针对传统的基于数字信号处理的无监督语声
                                                               evaluation of speech quality, PESQ)、分段信噪比
             增强算法因存在不合理的假设,导致在非平稳噪声
                                                               (Segmented signal-to-noise ratio, SSNR) 等评价指
             条件下语声增强性能急剧下降的问题,人们开始关
                                                               标上均优于传统的网络结构,如长短时记忆 (Long
             注基于有监督学习的语声增强算法。非负矩阵分
                                                               short term memory, LSTM) 网络、门控循环单元
             解  [13−15]  是早期的基于有监督的语声增强方法之
                                                               (Gated recurrent unit, GRU)以及简单循环神经网
             一。随着深度学习的发展,基于深度学习                   [16−18]  的
                                                               络 (Simple recurrent neural network, SRNN)。同
             语声增强算法取得了越来越好的语声增强性能。基
                                                               时,LCGRU 网络的参数数量为 GRU 网络的 13%,
             于深度学习的语声增强算法利用了深度神经网络
                                                               LSTM网络的9.82%。
             强大的非线性映射能力,实现从带噪语声到纯净语
             声的复杂非线性映射。基于深度学习的语声增强
                                                               1 深度学习因果式语声增强
             方法分为频域映射和时域端到端的语声增强。在
             频域中,由于相位信息缺乏结构性,所以难以建模                                通常为了使神经网络能够更准确地建模语声
             学习,因此一般只对带噪语声信号的幅度信息做                             信号的时频结构特征,常常会采用非因果式的网络
             学习建模,最后采用带噪语声信号的相位信息实现                            输入 (2N + 1 帧)。然而,采用非因果式的网络输入
             语声增强。但是在低信噪比条件下语声质量,语声                            会给语声增强算法带来固定时延,不能满足实时语
             可懂度会受到采用带噪语声信号相位合成语声的                             声增强的系统要求。为了保证语声增强系统的实时
             影响,因此人们开始采用时域端到端的语声增强方                            性,基于深度学习的语声增强算法需要采用因果式
             法  [19−21] 。基于深度学习的语声增强方法相对于传                     的网络输入 (N + 1 帧),即网络的输入只包含当前
             统的基于数字信号处理的方法在增强后的语声质                             帧以及先前 N 帧的语声信号特征,未包含后续未来
   210   211   212   213   214   215   216   217   218   219   220