Page 218 - 《应用声学》2023年第3期
P. 218
656 2023 年 5 月
明了本文所提出的基于LCGRU的语声增强方法的 8
SRNN
有效性。LSTM 与 GRU 的性能相对于 SRNN 更加 6 GRU
优越,这是由于LSTM、GRU采用了门控机制,能够 4 LSTM
LCGRU
学习到语声信号的长期依赖关系,而SRNN 未采用 2
门控机制。LCGRU 网络不但采用了门控机制,并 SSNR 0
-2
且采用了卷积核替代了全连接结构,所以性能得到
-4
了较大提高。为进一步验证所提算法的优越性,本
-6
文统计了不同噪声条件下不同模型增强后的语声
-8
SSNR,如图3所示。 -5 0 5 10 15
Input SNR
表 1 平均 PESQ (a) destroyerengine
Table 1 Average PESQ 8
SRNN
6 GRU
噪声 信噪比/dB SRNN GRU LSTM LCGRU LSTM
LCGRU
−5 1.823 1.696 1.772 1.856 4
SSNR
hfchannel 0 2.140 2.087 2.110 2.242 2
5 2.384 2.438 2.447 2.574 0
−5 1.758 1.861 1.828 1.884
-2
f16 0 2.148 2.239 2.231 2.267
-4
-5 0 5 10 15
5 2.456 2.582 2.600 2.595
Input SNR
−5 1.875 1.960 1.903 1.927 (b) hfchannel
destroyerengine 0 2.155 2.234 2.180 2.302 10
SRNN
8
5 2.410 2.506 2.501 2.639 GRU
6 LSTM
−5 2.855 3.115 3.087 3.326 LCGRU
4
volvo 0 2.988 3.401 3.441 3.515 SSNR 2
5 3.046 3.574 3.618 3.656 0
-2
表 2 平均 STOI -4
Table 2 Average STOI -6
-8
-5 0 5 10 15
噪声 信噪比/dB SRNN GRU LSTM LCGRU Input SNR
(c) f16
−5 0.639 0.642 0.647 0.661
16
hfchannel 0 0.756 0.764 0.765 0.777
SRNN
14 GRU
5 0.834 0.849 0.845 0.856 LSTM
LCGRU
−5 0.605 0.606 0.594 0.628 12
f16 0 0.741 0.746 0.744 0.755 SSNR 10
5 0.830 0.842 0.843 0.844
8
−5 0.589 0.590 0.564 0.654
6
destroyerengine 0 0.715 0.729 0.712 0.782
4
5 0.816 0.834 0.823 0.867 -5 0 5 10 15
Input SNR
−5 0.883 0.913 0.909 0.925 (d) volvo
volvo 0 0.915 0.944 0.938 0.945
图 3 不同噪声下的 SSNR
5 0.932 0.959 0.951 0.958 Fig. 3 The SSNR under different noises