Page 161 - 《应用声学》2022年第4期
P. 161
第 41 卷 第 4 期 程琳娟等: 人耳听觉相关代价函数深度学习单通道语声增强算法 659
所有语声和噪声信号的采样率均为 16 kHz。 噪声场景下的平均 PESQ 和 STOI 结果分别如表 2
STFT的帧长为 512(32 ms),帧移为 256(16 ms),帧 和表3所示。
重叠度为 50%,因此语声信号幅度谱的频率维度为 表 2 基于不同代价函数的 LSTM 单通道语声增强
257。LSTM 网路的输入特征是当前帧带噪语声的 算法在训练集噪声场景下的平均 PESQ 得分
LPS。每个隐藏层有512个节点,最后一层全连接层 Table 2 Average PESQ results of single-
有257个节点,激活函数为 sigmoid 函数。训练模型 channel speech enhancement based on LSTM
时,设置的批大小为128。采用Adam优化器更新权 with different cost functions under seen noise
重,学习率设置为 0.0003。为了提高模型的泛化性 types
能,防止过拟合,采用随机丢弃方法,每层隐藏层随
SNR/dB
机丢弃部分节点,丢弃率为0.2。 −5 0 5 10 15 20
本文虽然在网络训练中引入了基于人耳听觉 带噪语声 1.72 2.02 2.34 2.67 2.99 3.29
特性的代价函数,但目的仍然是提高增强后的语声 p = −1.9 1.66 1.77 2.16 2.54 2.79 2.93
质量和可懂度,提升单通道语声增强算法性能。因 p = −1.5 1.93 2.32 2.74 3.10 3.33 3.47
此,在测试阶段,采用以下 5种常用的客观评价标准 p = −1 2.52 2.92 3.25 3.48 3.64 3.78
WE p = −0.5 2.82 3.12 3.36 3.54 3.70 3.84
对算法进行评估:
p = 0(MSE) 2.75 3.04 3.27 3.46 3.62 3.75
(1) PESQ:PESQ是用来评价语声质量的指标,
p = 1 2.19 2.51 2.78 3.02 3.24 3.43
与主观评价得分高度相关,取值在−0.5 ∼ 4.5之间。
p = 2 1.83 2.11 2.40 2.68 2.97 3.27
(2) 信号失真综合评价标准 (Composite mea-
COSH 2.63 2.95 3.22 3.44 3.62 3.78
sure for signal distortion, CSIG) [31] :评价信号失真 IS 2.27 2.57 2.82 3.04 3.24 3.42
度的指标,取值在1 ∼ 5之间。 logMSE 2.64 2.96 3.22 3.44 3.62 3.78
(3) 噪声失真综合评价标准 (Composite mea- WLR 2.78 3.08 3.31 3.51 3.68 3.82
sure for noise distortion, CBAK) [31] :评价噪声失真 STOI 2.13 2.45 2.77 3.07 3.33 3.55
度的指标,取值在1 ∼ 5之间。
表 3 基于不同代价函数的 LSTM 单通道语声增强算
(4) 整体语声质量综合评价标准 (Composite
法在训练集噪声场景下的平均 STOI 得分
measure for overall speech quality, COVL) [31] :评 Table 3 Average STOI results of single-channel
价整体语声质量的标准,取值在1 ∼ 5之间。 speech enhancement based on LSTM with dif-
(5) STOI:STOI 是用来评价语声可懂度的指 ferent cost functions under seen noise types
标,取值在 0 ∼ 1 之间,STOI 得分越高代表语声可
SNR/dB
懂度越好。
−5 0 5 10 15 20
这些评价标准均以干净语声为参考信号,与估
带噪语声 0.72 0.80 0.87 0.93 0.96 0.98
计的干净语声进行对比计算得分,分数越高代表算
p = −1.9 0.60 0.68 0.76 0.83 0.88 0.90
法性能越好。 p = −1.5 0.69 0.77 0.85 0.91 0.94 0.96
本文利用LSTM网络对表1中代价函数的性能 p = −1 0.81 0.88 0.93 0.96 0.98 0.99
进行了测试,并与 MSE 代价函数和 STOI 代价函 WE p = −0.5 0.86 0.91 0.95 0.97 0.98 0.99
数 [18] 进行了对比。 p = 0 (MSE) 0.87 0.92 0.95 0.97 0.98 0.99
p = 1 0.82 0.88 0.93 0.95 0.97 0.99
3.2 实验结果 p = 2 0.75 0.82 0.88 0.93 0.96 0.98
首先,针对训练集噪声场景,对基于不同代价 COSH 0.84 0.90 0.93 0.96 0.98 0.99
函数的 LSTM 单通道语声增强算法的性能进行分 IS 0.82 0.88 0.92 0.95 0.97 0.98
析。从训练集所用的 115 种噪声中随机选取 6 种噪 logMSE 0.85 0.90 0.94 0.96 0.98 0.99
声,与 60 句测试集干净语声按照不同 SNR 进行混 WLR 0.87 0.92 0.95 0.97 0.98 0.99
STOI 0.83 0.89 0.93 0.95 0.97 0.98
叠构建测试带噪语声。不同代价函数在 6 种训练集