Page 215 - 《应用声学》2023年第3期

P. 215

第 42 卷第 3 期王玫等：基于轻量级卷积门控循环神经网络的语声增强方法 653

量、语声可懂度等评价指标上得到了非常大的提升。
0 引言
循环神经网络能够建模语声信号的时间相关性，因
此许多文献常常采用循环神经网络实现对带噪语
语声信号是人与人、人与智能设备之间传递信
声信号的建模 [22−24] 。但是循环神经网络存在参数
息的重要载体之一。在现实生活环境中，各种各样
数量巨大的问题，这不利于模型的推广，同时，在训
噪声的干扰，严重影响了语声信号的质量与可懂度，
给人们带来了糟糕的听觉体验，同时阻碍了人与人练阶段易出现过拟合导致模型泛化能力较差。
本文针对传统的基于循环神经网络的语声增
之间的交流，以及人与智能设备之间的交互。因此，
强方法中，其全连接的结构忽略了语声信号的时
语声增强是语声信号处理中不可或缺的一部分 [1] 。
频结构特征 [25] ，导致语声增强性能下降，同时参
语声增强的目标是尽可能地从带噪语声中还原出
数数量巨大的问题，设计了一种采用卷积核替代循
纯净语声 [2] ，从而提高语声质量和语声可懂度等评
环神经网络中的全连接结构的轻量级卷积门控循
价指标。
环神经网络 (Lightweight convolution gated recur-
传统的语声增强技术经过不断发展，衍生出了
rent neural network, LCGRU)，在提高网络性能的
多种基于数字信号处理和统计学的语声增强算法。
同时降低了网络参数的数量。针对在基于深度学
经典的传统语声增强算法有谱减法 [3−4] 、维纳滤
习因果式语声增强的方法中采用了因果式的网络
波 [5−7] 、子空间 [8] 等。在传统的谱减法中，语声增
输入 (N + 1 帧) 导致语声增强性能下降的问题，本
强的效果主要依赖于对带噪语声中噪声频谱的估
文充分利用了先前 N 帧的带噪语声信号特征，在
计，对噪声频谱的估计一般在静音部分实现。然而，
LCGRU 网络当前时刻网络单元的输入中融合了
在现实中，对噪声频谱的准确估计是非常困难的一
上一时刻的输入 x t−1 与输出 h t−1 ，这充分利用了
项工作。在基于子空间的语声增强方法中，通过将
先前 N 帧的语声信号特征 [26] 。针对网络训练过程
带噪语声分解为不同的子空间成分，这些不同的子
中易出现过拟合的问题，本文采用了线性门控机
空间分别代表语声成分和噪声成分 [9−11] 。传统的
制 [27] 控制网络信息的传输，进一步提高了网络的
语声增强算法在平稳噪声条件下性能比较稳定，但
语声增强性能。仿真实验结果表明，LCGRU 在增
是在非平稳噪声条件下的性能急剧恶化 [12] ，这是由
强后的语声短时客观可懂度 (Short time objective
于其本身存在着一些不合理的假设。
intelligibility, STOI)、语声感知质量 (Perceptual
针对传统的基于数字信号处理的无监督语声
evaluation of speech quality, PESQ)、分段信噪比
增强算法因存在不合理的假设，导致在非平稳噪声
(Segmented signal-to-noise ratio, SSNR) 等评价指
条件下语声增强性能急剧下降的问题，人们开始关
标上均优于传统的网络结构，如长短时记忆 (Long
注基于有监督学习的语声增强算法。非负矩阵分
short term memory, LSTM) 网络、门控循环单元
解 [13−15] 是早期的基于有监督的语声增强方法之
(Gated recurrent unit, GRU)以及简单循环神经网
一。随着深度学习的发展，基于深度学习 [16−18] 的
络 (Simple recurrent neural network, SRNN)。同
语声增强算法取得了越来越好的语声增强性能。基
时，LCGRU 网络的参数数量为 GRU 网络的 13%，
于深度学习的语声增强算法利用了深度神经网络
LSTM网络的9.82%。
强大的非线性映射能力，实现从带噪语声到纯净语
声的复杂非线性映射。基于深度学习的语声增强
1 深度学习因果式语声增强
方法分为频域映射和时域端到端的语声增强。在
频域中，由于相位信息缺乏结构性，所以难以建模通常为了使神经网络能够更准确地建模语声
学习，因此一般只对带噪语声信号的幅度信息做信号的时频结构特征，常常会采用非因果式的网络
学习建模，最后采用带噪语声信号的相位信息实现输入 (2N + 1 帧)。然而，采用非因果式的网络输入
语声增强。但是在低信噪比条件下语声质量，语声会给语声增强算法带来固定时延，不能满足实时语
可懂度会受到采用带噪语声信号相位合成语声的声增强的系统要求。为了保证语声增强系统的实时
影响，因此人们开始采用时域端到端的语声增强方性，基于深度学习的语声增强算法需要采用因果式
法 [19−21] 。基于深度学习的语声增强方法相对于传的网络输入 (N + 1 帧)，即网络的输入只包含当前
统的基于数字信号处理的方法在增强后的语声质帧以及先前 N 帧的语声信号特征，未包含后续未来

210 211 212 213 214 215 216 217 218 219 220