Page 159 - 《应用声学》2022年第4期

P. 159

第 41 卷第 4 期程琳娟等：人耳听觉相关代价函数深度学习单通道语声增强算法 657

特征映射方法的优势。如图 1 所示，本文使用 SA方增强算法中提出了一系列基于人耳听觉的代价函
法对LSTM网络进行训练。数 [19,24−26] 。本文引入这些代价函数替代 MSE 代
价函数对 LSTM 网络进行训练，以提高基于 LSTM
的单通道语声增强算法的性能，提升语声质量和可
⌣
x↼n↽
懂度。
2.2.1 WE代价函数

WE 代价函数是一种关于心理声学的代价函
数，由 Loizou [19] 基于低速率语声编解码器中所使
⌣ ⌣
ͥᝠᄊᄬಖឦܦࣨए៨ X k /M k Y k
用的感知加权法所提出。感知加权法主要利用了人
耳听觉系统的掩蔽特性，在语声能量较大的时频段
⌣
ᣥѣࡏ M k
(如语声共振峰) 附近，大部分量化噪声被语声掩盖，
LSTM
很难被检测到，信噪比较高。而在语声能量较小的
时频段，噪声能量占主要成分，信噪比较低。低速率
LSTM
Y k
语声编解码器采用感知加权法，用加权滤波器对误
ᣥКࡏ 差频谱进行整形。滤波器的形状类似于原始信号的
频谱倒数，即语声谱谷值附近的误差被放大，谱峰
LPS
值附近的误差被缩小，可以进一步抑制谱谷值附近
的噪声，更侧重于恢复能量较小且易被噪声干扰的
干净语声段，提高整段语声的质量和可懂度。基于
此，Loizou 提出用 1/X k 对 MSE 代价函数进行加权
STFT
滤波，可表示为
y↼n↽
( ) 1 ( ) 2
ˆ
ˆ
d X k , X k = X k − X k . (9)
X k
图 1 基于 LSTM 的单通道语声增强算法框图
由式 (9) 可以看出，当语声能量较小时，即 X k
Fig. 1 Diagram of LSTM-based single-channel
较小，则该加权 MSE 代价函数的权重更大，对误差
speech enhancement
的惩罚力度更强；当语声能量较大时，即 X k 较大，
网络隐藏层包括两层 LSTM，每层有 512 个节则该加权MSE代价函数的权重更小，对误差的惩罚
点，输出层为 FCN，激活函数为 sigmoid 函数，将网力度更弱。考虑到更一般的形式，将X 作为加权滤
p
k
络输出值限定在 [0, 1] 之间。网络输出与带噪语声波器，称为WE代价函数，其中p为大于2的常数，即
幅度谱相乘得到对干净语声幅度谱的估计，根据估
( ) p ( ) 2
ˆ
ˆ
计干净语声幅度谱和真实干净语声幅度谱计算代 d WE X k , X k = X k X k − X k . (10)
价函数。当模型完成训练，在增强阶段，利用估计干
当 p < 0，干净语声能量较小的时频点权重更大，误
净语声幅度谱和带噪语声相位根据重叠相加法恢
差值更大，此时噪声占主要成分，因此能够更大程
复出干净语声时域信号 ˆx(n)。
度地降低噪声残留；当 p > 0，则WE 代价函数在语
2.2 基于人耳听觉的代价函数声共振峰附近的误差较大，更侧重于恢复语声共振
由于 MSE代价函数形式简单，易于求导，MSE 峰附近的干净语声，保留更多语声信息。当 p = 0，
函数成为语声增强算法中最常用的代价函数。然而式 (10) 称为 MSE 代价函数。WE 代价函数根据人
MSE 代价函数误差值的大小与语声质量好坏并非耳听觉掩蔽特性，利用参数 p 调节代价函数优化方
完全线性相关。考虑到人耳听觉掩蔽效应和共振峰向，控制对残留噪声和干净语声的优化。本文取
对语声质量及可懂度的重要性等因素，在传统语声 p = [−1.9, −1.5, −1, −0.5, 0, 1, 2]。

154 155 156 157 158 159 160 161 162 163 164