Page 157 - 《应用声学》2022年第4期
P. 157
第 41 卷 第 4 期 程琳娟等: 人耳听觉相关代价函数深度学习单通道语声增强算法 655
听感极为重要。Xia 等 [11] 提出对自编码器语声增
0 引言
强算法的代价函数进行加权,权重的大小随着频段
语声质量和可懂度在移动电话、助听器和语声 的增加而降低,以保留更多低频语声信息。Kumar
识别等系统中具有重要意义。然而在实际环境中, 等 [12] 提出利用人耳掩蔽函数对 MSE 代价函数进
这些系统通常会受到噪声的干扰,破坏语声质量。 行加权,在低信噪比场景下取得了更好的语声质量。
语声增强算法的目的就是从嘈杂的背景噪声中提 Liu 等 [13] 提出了一种和心理声学相关的加权 MSE
取出干净语声信号,提高设备通讯质量以及语声识 代价函数,利用一种经验函数对基于对数谱的MSE
别等性能。相比于多通道语声增强算法,单通道语 代价函数进行加权,对能量较大的语声段惩罚力
声增强算法仅需单个传声器,成本低,易部署,一直 度较大。也有学者提出在训练网络时,直接采用语
是研究的热点。 声感知质量评价 (Perceptual evaluation of speech
传统单通道语声增强算法主要包括谱减法、基 quality, PESQ) [14] 和短时目标可懂度 (Short-time
于统计模型的算法和基于子空间的算法 [1−6] 。谱减 objective intelligibility, STOI) [15] 客观指标作为代
法 [2−3] 算法结构简单,其原理是在无语声段估计和 价函数 [16−18] 。但是 PESQ 和 STOI 的计算非常复
更新噪声谱,然后将估计的噪声谱从带噪语声谱中 杂,且存在不可导的计算过程,因此一般需要对这些
减去得到增强语声谱。谱减算法依赖噪声谱估计, 代价函数进行近似拟合得到适合 DNN 训练的代价
容易产生较大的语声失真和音乐噪声。基于统计模 函数,导致训练后的模型并不能实现理想效果。而
型的算法 [4−5] 通过引入语声统计特性分析,改善了 且这些代价函数往往只能在该客观指标下取得较
语声信号失真,同时降低了音乐噪声。基于子空间 好结果。
的语声增强算法 [6] 是利用语声信号的稀疏性,将带 本文将两类与人耳听觉相关的代价函数 [19] 引
噪语声信号的向量空间分解为干净语声子空间和 入到 DNN 训练中,可以在不增加模型计算复杂度
噪声子空间,通过抑制噪声子空间达到增强干净语 的情况下提高深度学习算法增强后的语声质量,
声的目的。传统语声增强算法在平稳噪声下能够取 降低噪声残留。第一类代价函数是加权欧式距离
得良好的降噪效果,但是在非平稳噪声场景下的性 (Wighted-Euclidean, WE) 代价函数,考虑了人耳
能较差。 听觉掩蔽效应,利用一个幂指数控制网络对噪声
近年,基于深度神经网络 (Deep neural net- 的抑制程度和对语声的保留程度。第二类代价函
work, DNN) 的语声增强算法在非平稳噪声场景下 数包括 Itakura-Satio(IS) 代价函数、COSH 代价函
表现出显著优势,成为了研究热点 [7] 。得益于 DNN 数和加权似然比(Weighted likelihood ratio, WLR)
强大的非线性建模能力,通过构造大规模带噪语 代价函数。这几种代价函数都更强调语声谱峰值
声以及干净语声数据集,可以直接从带噪语声中 的重要性,侧重于恢复谱峰值信息,保留更多语声
映射干净语声。在网络参数训练过程中,代价函数 信息,提高语声质量。本文通过在代价函数中引
决定了网络整体优化方向,直接影响网络性能。均 入人耳听觉信息对网络训练进行优化,控制网络
方误差 (Mean-square error, MSE) 函数是网络训练 模型对干净语声的保留和对干扰噪声的抑制,其
中最常用的一种代价函数。但是 MSE 函数误差值 目的是提高语声质量和可懂度,未考虑对语义和
的大小与语声质量的好坏并非完全相关,而且容易 情感等语声感知相关信息的影响。本文利用长短
产生过平滑等问题 [8] 。大量研究学者针对 MSE 代 期记忆 (Long short-term memory, LSTM) [20] 网络
价函数问题提出了改进方法。Xu 等 [9] 提出在代价 分析了两类代价函数在基于深度学习的单通道语
函数中对增强后语声信号中的语声分量和残余噪 声增强算法中的性能,并与 MSE 代价函数进行对
声分量分别进行控制,从而获得更好的语声质量和 比。为了验证这些代价函数对网络结构的泛化性能,
听感更自然的残余噪声。Li 等 [10] 提出了一种广义 利用全连接网络 (Fully connected network, FCN)
损失函数,将 MSE 及其他一些典型损失函数总结 和卷积循环网络(Convolutional recurrent network,
纳入到同一理论框架中,研究表明,通过控制损失 CRN) [21] 对这些代价函数在不同网络架构上的性
函数使噪声听感更加自然对于增强后语声的整体 能进行了进一步探究。