Page 215 - 《应用声学》2023年第3期
P. 215
第 42 卷 第 3 期 王玫等: 基于轻量级卷积门控循环神经网络的语声增强方法 653
量、语声可懂度等评价指标上得到了非常大的提升。
0 引言
循环神经网络能够建模语声信号的时间相关性,因
此许多文献常常采用循环神经网络实现对带噪语
语声信号是人与人、人与智能设备之间传递信
声信号的建模 [22−24] 。但是循环神经网络存在参数
息的重要载体之一。在现实生活环境中,各种各样
数量巨大的问题,这不利于模型的推广,同时,在训
噪声的干扰,严重影响了语声信号的质量与可懂度,
给人们带来了糟糕的听觉体验,同时阻碍了人与人 练阶段易出现过拟合导致模型泛化能力较差。
本文针对传统的基于循环神经网络的语声增
之间的交流,以及人与智能设备之间的交互。因此,
强方法中,其全连接的结构忽略了语声信号的时
语声增强是语声信号处理中不可或缺的一部分 [1] 。
频结构特征 [25] ,导致语声增强性能下降,同时参
语声增强的目标是尽可能地从带噪语声中还原出
数数量巨大的问题,设计了一种采用卷积核替代循
纯净语声 [2] ,从而提高语声质量和语声可懂度等评
环神经网络中的全连接结构的轻量级卷积门控循
价指标。
环神经网络 (Lightweight convolution gated recur-
传统的语声增强技术经过不断发展,衍生出了
rent neural network, LCGRU),在提高网络性能的
多种基于数字信号处理和统计学的语声增强算法。
同时降低了网络参数的数量。针对在基于深度学
经典的传统语声增强算法有谱减法 [3−4] 、维纳滤
习因果式语声增强的方法中采用了因果式的网络
波 [5−7] 、子空间 [8] 等。在传统的谱减法中,语声增
输入 (N + 1 帧) 导致语声增强性能下降的问题,本
强的效果主要依赖于对带噪语声中噪声频谱的估
文充分利用了先前 N 帧的带噪语声信号特征,在
计,对噪声频谱的估计一般在静音部分实现。然而,
LCGRU 网络当前时刻网络单元的输入中融合了
在现实中,对噪声频谱的准确估计是非常困难的一
上一时刻的输入 x t−1 与输出 h t−1 ,这充分利用了
项工作。在基于子空间的语声增强方法中,通过将
先前 N 帧的语声信号特征 [26] 。针对网络训练过程
带噪语声分解为不同的子空间成分,这些不同的子
中易出现过拟合的问题,本文采用了线性门控机
空间分别代表语声成分和噪声成分 [9−11] 。传统的
制 [27] 控制网络信息的传输,进一步提高了网络的
语声增强算法在平稳噪声条件下性能比较稳定,但
语声增强性能。仿真实验结果表明,LCGRU 在增
是在非平稳噪声条件下的性能急剧恶化 [12] ,这是由
强后的语声短时客观可懂度 (Short time objective
于其本身存在着一些不合理的假设。
intelligibility, STOI)、语声感知质量 (Perceptual
针对传统的基于数字信号处理的无监督语声
evaluation of speech quality, PESQ)、分段信噪比
增强算法因存在不合理的假设,导致在非平稳噪声
(Segmented signal-to-noise ratio, SSNR) 等评价指
条件下语声增强性能急剧下降的问题,人们开始关
标上均优于传统的网络结构,如长短时记忆 (Long
注基于有监督学习的语声增强算法。非负矩阵分
short term memory, LSTM) 网络、门控循环单元
解 [13−15] 是早期的基于有监督的语声增强方法之
(Gated recurrent unit, GRU)以及简单循环神经网
一。随着深度学习的发展,基于深度学习 [16−18] 的
络 (Simple recurrent neural network, SRNN)。同
语声增强算法取得了越来越好的语声增强性能。基
时,LCGRU 网络的参数数量为 GRU 网络的 13%,
于深度学习的语声增强算法利用了深度神经网络
LSTM网络的9.82%。
强大的非线性映射能力,实现从带噪语声到纯净语
声的复杂非线性映射。基于深度学习的语声增强
1 深度学习因果式语声增强
方法分为频域映射和时域端到端的语声增强。在
频域中,由于相位信息缺乏结构性,所以难以建模 通常为了使神经网络能够更准确地建模语声
学习,因此一般只对带噪语声信号的幅度信息做 信号的时频结构特征,常常会采用非因果式的网络
学习建模,最后采用带噪语声信号的相位信息实现 输入 (2N + 1 帧)。然而,采用非因果式的网络输入
语声增强。但是在低信噪比条件下语声质量,语声 会给语声增强算法带来固定时延,不能满足实时语
可懂度会受到采用带噪语声信号相位合成语声的 声增强的系统要求。为了保证语声增强系统的实时
影响,因此人们开始采用时域端到端的语声增强方 性,基于深度学习的语声增强算法需要采用因果式
法 [19−21] 。基于深度学习的语声增强方法相对于传 的网络输入 (N + 1 帧),即网络的输入只包含当前
统的基于数字信号处理的方法在增强后的语声质 帧以及先前 N 帧的语声信号特征,未包含后续未来