Page 157 - 《应用声学》2022年第4期
P. 157

第 41 卷 第 4 期         程琳娟等: 人耳听觉相关代价函数深度学习单通道语声增强算法                                          655


                                                               听感极为重要。Xia 等         [11]  提出对自编码器语声增
             0 引言
                                                               强算法的代价函数进行加权,权重的大小随着频段
                 语声质量和可懂度在移动电话、助听器和语声                          的增加而降低,以保留更多低频语声信息。Kumar
             识别等系统中具有重要意义。然而在实际环境中,                            等 [12]  提出利用人耳掩蔽函数对 MSE 代价函数进
             这些系统通常会受到噪声的干扰,破坏语声质量。                            行加权,在低信噪比场景下取得了更好的语声质量。
             语声增强算法的目的就是从嘈杂的背景噪声中提                             Liu 等  [13]  提出了一种和心理声学相关的加权 MSE
             取出干净语声信号,提高设备通讯质量以及语声识                            代价函数,利用一种经验函数对基于对数谱的MSE
             别等性能。相比于多通道语声增强算法,单通道语                            代价函数进行加权,对能量较大的语声段惩罚力
             声增强算法仅需单个传声器,成本低,易部署,一直                           度较大。也有学者提出在训练网络时,直接采用语
             是研究的热点。                                           声感知质量评价 (Perceptual evaluation of speech
                 传统单通道语声增强算法主要包括谱减法、基                          quality, PESQ) [14]  和短时目标可懂度 (Short-time
             于统计模型的算法和基于子空间的算法                   [1−6] 。谱减     objective intelligibility, STOI) [15]  客观指标作为代
             法  [2−3]  算法结构简单,其原理是在无语声段估计和                     价函数    [16−18] 。但是 PESQ 和 STOI 的计算非常复
             更新噪声谱,然后将估计的噪声谱从带噪语声谱中                            杂,且存在不可导的计算过程,因此一般需要对这些
             减去得到增强语声谱。谱减算法依赖噪声谱估计,                            代价函数进行近似拟合得到适合 DNN 训练的代价
             容易产生较大的语声失真和音乐噪声。基于统计模                            函数,导致训练后的模型并不能实现理想效果。而
             型的算法    [4−5]  通过引入语声统计特性分析,改善了                   且这些代价函数往往只能在该客观指标下取得较
             语声信号失真,同时降低了音乐噪声。基于子空间                            好结果。
             的语声增强算法        [6]  是利用语声信号的稀疏性,将带                    本文将两类与人耳听觉相关的代价函数                    [19]  引
             噪语声信号的向量空间分解为干净语声子空间和                             入到 DNN 训练中,可以在不增加模型计算复杂度
             噪声子空间,通过抑制噪声子空间达到增强干净语                            的情况下提高深度学习算法增强后的语声质量,

             声的目的。传统语声增强算法在平稳噪声下能够取                            降低噪声残留。第一类代价函数是加权欧式距离
             得良好的降噪效果,但是在非平稳噪声场景下的性                            (Wighted-Euclidean, WE) 代价函数,考虑了人耳
             能较差。                                              听觉掩蔽效应,利用一个幂指数控制网络对噪声
                 近年,基于深度神经网络 (Deep neural net-                 的抑制程度和对语声的保留程度。第二类代价函
             work, DNN) 的语声增强算法在非平稳噪声场景下                       数包括 Itakura-Satio(IS) 代价函数、COSH 代价函
             表现出显著优势,成为了研究热点                [7] 。得益于 DNN       数和加权似然比(Weighted likelihood ratio, WLR)
             强大的非线性建模能力,通过构造大规模带噪语                             代价函数。这几种代价函数都更强调语声谱峰值
             声以及干净语声数据集,可以直接从带噪语声中                             的重要性,侧重于恢复谱峰值信息,保留更多语声
             映射干净语声。在网络参数训练过程中,代价函数                            信息,提高语声质量。本文通过在代价函数中引
             决定了网络整体优化方向,直接影响网络性能。均                            入人耳听觉信息对网络训练进行优化,控制网络
             方误差 (Mean-square error, MSE) 函数是网络训练              模型对干净语声的保留和对干扰噪声的抑制,其
             中最常用的一种代价函数。但是 MSE 函数误差值                          目的是提高语声质量和可懂度,未考虑对语义和
             的大小与语声质量的好坏并非完全相关,而且容易                            情感等语声感知相关信息的影响。本文利用长短
             产生过平滑等问题         [8] 。大量研究学者针对 MSE 代              期记忆 (Long short-term memory, LSTM)     [20]  网络
             价函数问题提出了改进方法。Xu 等                [9]  提出在代价       分析了两类代价函数在基于深度学习的单通道语
             函数中对增强后语声信号中的语声分量和残余噪                             声增强算法中的性能,并与 MSE 代价函数进行对
             声分量分别进行控制,从而获得更好的语声质量和                            比。为了验证这些代价函数对网络结构的泛化性能,
             听感更自然的残余噪声。Li 等            [10]  提出了一种广义          利用全连接网络 (Fully connected network, FCN)
             损失函数,将 MSE 及其他一些典型损失函数总结                          和卷积循环网络(Convolutional recurrent network,
             纳入到同一理论框架中,研究表明,通过控制损失                            CRN) [21]  对这些代价函数在不同网络架构上的性
             函数使噪声听感更加自然对于增强后语声的整体                             能进行了进一步探究。
   152   153   154   155   156   157   158   159   160   161   162