Page 163 - 《应用声学》2022年第4期

P. 163

第 41 卷第 4 期程琳娟等：人耳听觉相关代价函数深度学习单通道语声增强算法 661

表 4 基于不同代价函数的 LSTM 单通道语声增强 p = −0.5 时的 WE 代价函数的平均 PESQ 得分比
算法在未见噪声场景下的平均 PESQ 得分 MSE 代价函数高 0.11，表明基于 WE 代价函数的
Table 4 Average PESQ results of single- LSTM 单通道语声增强算法比 MSE 代价函数的泛
channel speech enhancement based on LSTM 化性能更好。表5中WE代价函数与MSE代价函数
with diﬀerent cost functions under unseen
在未见噪声场景下的平均 STOI 得分也基本相同。
noise types
低信噪比场景下，WLR 代价函数的 PESQ 和 STOI
SNR/dB 得分均比 MSE 代价函数略低，表明在低信噪比场
−5 0 5 10 15 20 景下，WLR 代价函数对未见噪声的泛化性能较差。
带噪语声 1.44 1.75 2.10 2.45 2.79 3.13 STOI 代价函数在未见噪声场景下同样只能实现较
p = −1.9 1.30 1.34 1.35 1.56 2.10 2.49 好的语声可懂度，而大大降低了处理后信号的语声
p = −1.5 1.20 1.38 1.91 2.56 2.94 3.17
质量。
p = −1 1.66 2.18 2.65 3.04 3.33 3.54
为了探究深度学习算法与传统算法之间的语
WE p = −0.5 2.05 2.47 2.80 3.09 3.35 3.57
声增强性能差异，以 WE 代价函数为例，对传统
p = 0(MSE) 1.98 2.36 2.68 2.96 3.23 3.45
基于贝叶斯估计的语声增强算法 [19] 与基于 LSTM
p = 1 1.66 1.99 2.31 2.61 2.89 3.16
的语声增强算法进行了分析对比。图 3 展示了贝
p = 2 1.44 1.73 2.05 2.40 2.74 3.08
叶斯估计算法和 LSTM 算法以 WE 函数为代价函
COSH 1.81 2.20 2.58 2.92 3.21 3.48
数时的结果。由表 3 可知，基于 LSTM 的语声增
IS 1.77 2.09 2.37 2.64 2.91 3.19
强算法在 p = [−1.9, −1.5, 2] 时的性能较差，为
logMSE 1.78 2.24 2.62 2.95 3.23 3.48
WLR 1.95 2.35 2.69 2.98 3.27 3.51 了更加清晰地对结果进行展示，图 3 中只给出了
STOI 1.98 2.36 2.68 2.96 3.23 3.45 p = [−1, −0.5, 0, 1] 条件下的结果。图 3(a)、图 3(b)
和图 3(c) 分别是 CBAK 得分、CSIG 得分和 COVL
得分结果。从图中可以看出，基于贝叶斯估计的语声
表 5 基于不同代价函数的 LSTM 单通道语声增强
增强算法在p = −0.5时的CBAK得分略高于p = 0
算法在未见噪声场景下的平均 STOI 得分
时的CBAK得分，表明p = −0.5时的残余噪声略小
Table 5 Average STOI results of single-
于 p = 0 时的残余噪声。在图 3(b) 中，贝叶斯估计
channel speech enhancement based on LSTM
with diﬀerent cost functions under unseen 算法在 p = 0 时的 CSIG 得分略高于 p = −0.5 时的
noise types CSIG 得分，表明在 p = 0 时引入的语声失真较小。
从图 3(c) 中可以看出，贝叶斯估计算法在 p = −0.5
SNR/dB
时的 COVL 得分与 p = 0 时的得分相近，表明二者
−5 0 5 10 15 20
在整体语声质量方面的性能相似。整体来看，对于
带噪语声 0.59 0.69 0.79 0.88 0.93 0.97
p= -1.9 0.49 0.55 0.61 0.66 0.74 0.82 CBAK，CSIG 和 COVL 这 3 种评价标准，基于 WE
代价函数的 LSTM 语声增强算法在 p = −0.5 时均
p = −1.5 0.51 0.56 0.68 0.82 0.89 0.92
p = −1 0.60 0.73 0.84 0.91 0.95 0.97 取得了最优性能。其中 p = −0.5时，WE 与MSE 代
WE p = −0.5 0.69 0.80 0.88 0.93 0.96 0.98 价函数的CBAK 得分相差较大，这是因为p = −0.5
p = 0(MSE) 0.70 0.80 0.88 0.93 0.96 0.98 的 WE 代价函数降噪性能更好。而 p = −0.5 时的
p = 1 0.66 0.77 0.85 0.91 0.95 0.97 CSIG 得分与 MSE 比较接近，表明二者处理后的语
p = 2 0.60 0.71 0.80 0.88 0.93 0.97 声失真程度相似。此外，根据图3三个评价指标的结
COSH 0.65 0.76 0.85 0.91 0.95 0.97 果，基于 LSTM 的语声增强算法在语声失真和噪声
IS 0.65 0.76 0.84 0.90 0.94 0.97
残留方面的性能都明显优于传统的贝叶斯算法，尤
logMSE 0.65 0.77 0.86 0.92 0.95 0.97
其是在较低的 SNR 条件下，优势更加明显。这是因
WLR 0.68 0.79 0.87 0.92 0.96 0.98
为 DNN 可以利用自身网络结构映射输入到输出之
STOI 0.64 0.74 0.83 0.90 0.94 0.97
间的复杂非线性关系，更好地处理非平稳噪声。

158 159 160 161 162 163 164 165 166 167 168