Page 153 - 《应用声学》2023年第4期
P. 153

第 42 卷 第 4 期          邦锦阳等: Att-U-Net:融合注意力机制的 U-Net 骨导语声增强                                 815


                                                               号经过快速傅里叶变换后得到的语声幅度谱作为
             0 引言
                                                               输入数据,建立源幅度谱与目标幅度谱之间的映射
                 骨导 (Bone-conducted, BC) 语声是由骨传导               关系。Shifas 等   [11]  在卷积神经网络 (Convolutional
             传声器采集得到的语声信号,与气导(Air-conducted,                   neural network, CNN) 模块中加入递归层,提出了
             AC) 语声相比,骨导语声的抗噪能力更强。骨导传                          一种鲁棒的上下文感知的语声增强特征提取策略,
             声器通过拾取声带振动采集语声信号,其特点是从                            该方法利用 CNN 实现了递归的特征提取,有效提
             声源处屏蔽了噪声,抗背景噪声能力强。然而,由                            升了语声增强方法对于噪声的鲁棒性。Ashutosh
             于人体发声原理以及固体传声的性质,骨导语声                             等 [12]  利用一种 FCN 进行时域语声增强,在训练中
             的低频成分厚重,频谱成分不丰富                [1] ;高频成分缺         增加了一个将时域转换为频域的操作,从而实现了
             失严重,语声听感沉闷、不自然,直接使用骨导语                            时域上波形的增强,避免了相位信息不匹配的问题。
             声通信质量不佳。在大型车辆、船舶、飞机、坦克                            Zhao 等  [13]  将注意力机制加入卷积模块,通过构造
             强大的背景噪声环境中,骨导传声器可以有效地                             更多的信息特征来提高卷积层的特征表示能力,在
             避免强背景噪声的干扰            [2] 。重构骨导语声的高频              此基础上提出一种混合损失函数,在时域和频域上
             成分,提升其听感,可以极大地促进骨导语声在实                            对模型进行联合优化。以上工作说明 CNN 和注意
             际中的应用价值。目前针对骨导语声增强的研究                             力机制等基于深度学习的方法在语声增强任务中
             主要分为两大类。一类是融合性的增强方法,将其                            具有优秀的特征提取能力和准确的高维映射表征
             与气导语声相结合,既利用气导语声高频成分丰                             能力,且通过互补网络结构的设计克服不同方法的
             富的优点,也借助于骨导语声优秀的抗噪性能,实                            局限性,兼顾特征提取与上下文信息关联,能有效提
             现融合性的增强        [3−5] 。Zhou 等  [6]  从骨导信号中获        升语声增强的质量,对骨导语声增强具有借鉴意义。

             得准确的语声激活检测 (Voice activity detection,                 编码 -解码 (Encoder-Decoder) 结构是一种序
             VAD),并将其纳入自适应噪声消除器和自适应块                           列问题的模型框架,被广泛应用于自然语言处理、语
             矩阵中,在多噪声类型和多噪声强度上提供了显                             声识别等任务。其显著特征是它是一个端到端的模
             著的效果改善。Yu 等         [7]  提出了一种新的多模态语              型,在序列问题处理上应用广泛,且其结构非常灵
             声增强结构,利用骨传导和空气传导信号,提出前                            活,编码层和解码层可以根据实际问题选择不同的
             期融合和后期融合两种集成学习的策略,利用全                             网络,使用一些低复杂度的网络也可得到较好的效
             卷积网络(Fully convolutional network, FCN)进行          果。基于Encoder-Decoder框架,大量文献利用卷积
             增强。另一类是仅依据骨导语声进行盲增强,试                             网络、循环网络等对其进行编码得到语义编码向量
             图重构高频成分        [8−9] ,得到与气导语声尽可能相                 后,在解码层对其进行增强,在时频域上实现语声增
             似的增强语声,提高其语声质量、可懂度和主观听                            强 [14−18] 。Tan等 [19−21]  结合CNN与循环神经网络
             感。Liu 等  [10]  为了提升骨导语声在自动语声识别                    构建 Encoder-Decoder 框架用来实现时频域的语声
             (Automatic speech recognition, ASR) 系统中的表         增强,取得了显著的效果。
             现,提出了一种新的深度去噪自编码方法构建气导                                最早用于医学图像分割问题的一种新型编
             与骨导之间的映射关系,并将增强后的骨导语声输                            解码网络 U-Net     [22]  近些年来广泛应用在语声分
             入ASR系统,实验证明该方法有效提升了语声质量                           离 [23−24] 、语声增强   [25−26]  中。U-Net的U型结构共
             和可懂度。与融合性增强方法相比,骨导语声盲增                            进行了 4 次下采样和 4 次上采样,同时在对应编解
             强的应用场景更贴近实际,硬件部署难度更小,因此                           码层之间引入了跳跃连接,而不是直接在编码得到
             本文针对骨导语声盲增强方法进行研究。                                的高维特征上进行反向传播和监督学习,这样有利
                 近年来,已经有大量基于深度学习的方法应用                          于解码重构时恢复更多低维的特征,实现多尺度特
             在语声增强上,与传统的骨导语声增强方法相比,                            征融合。因为 U-Net 对于结构复杂度不是很高的图
             深度学习模型对于语声特征的高维表征能力得到                             像和小样本数据也能产生较好的效果,这些特点与
             了极大的提升,能够较好地拟合气导语声到骨导语                            骨导语声语谱图恰好吻合,因此本文研究基于改进
             声的非线性复杂映射。目前主流方法是将语声信                             U-Net 用于骨导语声增强。由于 U-Net 模型在编码
   148   149   150   151   152   153   154   155   156   157   158