Page 159 - 《应用声学》2022年第4期
P. 159
第 41 卷 第 4 期 程琳娟等: 人耳听觉相关代价函数深度学习单通道语声增强算法 657
特征映射方法的优势。如图 1 所示,本文使用 SA方 增强算法中提出了一系列基于人耳听觉的代价函
法对LSTM网络进行训练。 数 [19,24−26] 。本文引入这些代价函数替代 MSE 代
价函数对 LSTM 网络进行训练,以提高基于 LSTM
的单通道语声增强算法的性能,提升语声质量和可
⌣
x↼n↽
懂度。
2.2.1 WE代价函数
WE 代价函数是一种关于心理声学的代价函
数,由 Loizou [19] 基于低速率语声编解码器中所使
⌣ ⌣
ͥᝠᄊᄬಖឦܦࣨए៨ X k /M k Y k
用的感知加权法所提出。感知加权法主要利用了人
耳听觉系统的掩蔽特性,在语声能量较大的时频段
⌣
ᣥѣࡏ M k
(如语声共振峰) 附近,大部分量化噪声被语声掩盖,
LSTM
很难被检测到,信噪比较高。而在语声能量较小的
时频段,噪声能量占主要成分,信噪比较低。低速率
LSTM
Y k
语声编解码器采用感知加权法,用加权滤波器对误
ᣥКࡏ 差频谱进行整形。滤波器的形状类似于原始信号的
频谱倒数,即语声谱谷值附近的误差被放大,谱峰
LPS
值附近的误差被缩小,可以进一步抑制谱谷值附近
的噪声,更侧重于恢复能量较小且易被噪声干扰的
干净语声段,提高整段语声的质量和可懂度。基于
此,Loizou 提出用 1/X k 对 MSE 代价函数进行加权
STFT
滤波,可表示为
y↼n↽
( ) 1 ( ) 2
ˆ
ˆ
d X k , X k = X k − X k . (9)
X k
图 1 基于 LSTM 的单通道语声增强算法框图
由式 (9) 可以看出,当语声能量较小时,即 X k
Fig. 1 Diagram of LSTM-based single-channel
较小,则该加权 MSE 代价函数的权重更大,对误差
speech enhancement
的惩罚力度更强;当语声能量较大时,即 X k 较大,
网络隐藏层包括两层 LSTM,每层有 512 个节 则该加权MSE代价函数的权重更小,对误差的惩罚
点,输出层为 FCN,激活函数为 sigmoid 函数,将网 力度更弱。考虑到更一般的形式,将X 作为加权滤
p
k
络输出值限定在 [0, 1] 之间。网络输出与带噪语声 波器,称为WE代价函数,其中p为大于2的常数,即
幅度谱相乘得到对干净语声幅度谱的估计,根据估
( ) p ( ) 2
ˆ
ˆ
计干净语声幅度谱和真实干净语声幅度谱计算代 d WE X k , X k = X k X k − X k . (10)
价函数。当模型完成训练,在增强阶段,利用估计干
当 p < 0,干净语声能量较小的时频点权重更大,误
净语声幅度谱和带噪语声相位根据重叠相加法恢
差值更大,此时噪声占主要成分,因此能够更大程
复出干净语声时域信号 ˆx(n)。
度地降低噪声残留;当 p > 0,则WE 代价函数在语
2.2 基于人耳听觉的代价函数 声共振峰附近的误差较大,更侧重于恢复语声共振
由于 MSE代价函数形式简单,易于求导,MSE 峰附近的干净语声,保留更多语声信息。当 p = 0,
函数成为语声增强算法中最常用的代价函数。然而 式 (10) 称为 MSE 代价函数。WE 代价函数根据人
MSE 代价函数误差值的大小与语声质量好坏并非 耳听觉掩蔽特性,利用参数 p 调节代价函数优化方
完全线性相关。考虑到人耳听觉掩蔽效应和共振峰 向,控制对残留噪声和干净语声的优化。本文取
对语声质量及可懂度的重要性等因素,在传统语声 p = [−1.9, −1.5, −1, −0.5, 0, 1, 2]。