Page 219 - 《应用声学》2023年第3期
P. 219
第 42 卷 第 3 期 王玫等: 基于轻量级卷积门控循环神经网络的语声增强方法 657
从图 3 中可以得出,LCGRU 网络结构相对于 表 5 不同网络模型处理一帧语声数据所需要的时间
传统的网络结构 (SRNN, GRU, LSTM) 增强后的 Table 5 The time of different models to process
语声 SSNR 更高。SRNN 网络结构虽然在图 3(a)、 a frame of data
图 3(b) 中 在 低 信 噪 比 条 件 下 的 语 声 SSNR 高 于
模型 SRNN GRU LSTM LCGRU
GRU、LSTM,但是依然低于 LCGRU,同时随着
信噪比的提高其性能逐渐低于 GRU、LSTM。然而, 时间/ms 0.8445 1.0115 1.8197 2.1136
可以看出LCGRU网络依然拥有较好的语声增强性
从表 3 可以得出 LCGRU 网络的参数数量为
能,这证明了相对于传统的网络结构(GRU, LSTM,
GRU网络的13%,为LSTM网络的9.82%。LCGRU
SRNN),LCGRU的鲁棒性更好。
网络的参数数量得到大幅度减少,这得益于本文采
综 上 所 述, LCGRU 网 络 相 对 于 传 统 的 网
用卷积核替代传统的全连接结构。从表 4 中可以看
络结构 (SRNN, GRU, LSTM) 在增强后的 STOI、
到,LCGRU获得了最低的损失值,这证明了该网络
PESQ、SSRN 等评价指标上获得更高的得分。而
结构能够更好地建模带噪语声到纯净语声的复杂
LSTM 相对于 GRU、SRNN 拥有更好的语声增强性
映射关系。从表 5 可以看出,本文所提算法相对耗
能,但是其参数数量较多,导致网络训练困难,同
时,这是由于本文采用卷积核做特征计算,计算量相
时容易出现过拟合的问题。而LCGRU 网络因为采
对较大,但依然满足实时性要求。
用了卷积核替代了传统循环神经网络的全连接结
构,同时采用了线性门控机制控制信息的传输,因 4 结论
此不但极大地减少了网络的参数数量,同时保留了
语声信号的时频结构特征,从而获得了较好的语声 针对传统的循环神经网络因采用全连接的网
增强性能。针对在深度学习因果式语声增强方法中 络结构忽略了语声信号的时频结构特征,本文采用
因采用因果式的网络输入导致语声增强性能下降 卷积核替代了传统的全连接结构,在对语声信号的
的问题,LCGRU 为充分利用先前帧的语声信号特 长期依赖关系建模的同时,保留了其时频结构特征
征,在 LCGRU 网络单元当前时刻的输入中融合了 信息,极大降低了网络的参数数量。针对基于深度
上一时刻的输入 x t−1 与输出 h t−1 ,这充分利用了先 学习的因果式语声增强方法中因采用了因果式的
前N 帧的语声信号特征,降低了因为采用因果式网 网络输入导致语声增强性能下降的问题,本文设计
络输入特征信息减少所带来的影响。表3、表4 统计 了一种 LCGRU网络结构。为充分利用先前帧的语
了不同网络结构的参数数量,以及模型收敛后的绝 声信号特征,在 LCGRU 网络单元当前时刻的输入
对误差;表 5 中统计了采用不同网络模型 NVIDIA 中融合了上一时刻的输入x t−1 与输出 h t−1 ,这充分
GeForce MX350 环境下,GPU 平台中处理一帧带 利用了先前 N 帧的语声信号特征,降低了因为采用
噪语声数据所需要的平均时间。 因果式网络输入特征信息减少所带来的影响。注意
力机制能够更好地关注到带噪语声中纯净语声成
表 3 不同网络模型的参数数量
分。此外,在语声和声频处理领域,利用人耳掩蔽效
Table 3 Parameters of different network
应,取得了极大成功。下一步将研究利用注意力机
models
制结合人耳掩蔽效应提高网络的语声增强性能。同
模型 SRNN GRU LSTM LCGRU 时,为了缩短模型的计算时间,将采用扩张卷积等方
式做进一步的改进,以提升系统的性能。
参数量/10 6 1.969 5.781 7.678 0.754
表 4 不同网络模型的验证损失
参 考 文 献
Table 4 Verification loss of different net-
work models
[1] Cui X, Chen Z, Yin F. Speech enhancement based on sim-
ple recurrent unit network[J]. Applied Acoustics, 2020,
模型 SRNN GRU LSTM LCGRU
157: 107019.
MAE 0.01805 0.01610 0.01680 0.01354 [2] Loizou P. Speech enhancement: theory and practice[M].
Boca Raton: CRC Press, 2007.