Page 153 - 《应用声学》2023年第4期
P. 153
第 42 卷 第 4 期 邦锦阳等: Att-U-Net:融合注意力机制的 U-Net 骨导语声增强 815
号经过快速傅里叶变换后得到的语声幅度谱作为
0 引言
输入数据,建立源幅度谱与目标幅度谱之间的映射
骨导 (Bone-conducted, BC) 语声是由骨传导 关系。Shifas 等 [11] 在卷积神经网络 (Convolutional
传声器采集得到的语声信号,与气导(Air-conducted, neural network, CNN) 模块中加入递归层,提出了
AC) 语声相比,骨导语声的抗噪能力更强。骨导传 一种鲁棒的上下文感知的语声增强特征提取策略,
声器通过拾取声带振动采集语声信号,其特点是从 该方法利用 CNN 实现了递归的特征提取,有效提
声源处屏蔽了噪声,抗背景噪声能力强。然而,由 升了语声增强方法对于噪声的鲁棒性。Ashutosh
于人体发声原理以及固体传声的性质,骨导语声 等 [12] 利用一种 FCN 进行时域语声增强,在训练中
的低频成分厚重,频谱成分不丰富 [1] ;高频成分缺 增加了一个将时域转换为频域的操作,从而实现了
失严重,语声听感沉闷、不自然,直接使用骨导语 时域上波形的增强,避免了相位信息不匹配的问题。
声通信质量不佳。在大型车辆、船舶、飞机、坦克 Zhao 等 [13] 将注意力机制加入卷积模块,通过构造
强大的背景噪声环境中,骨导传声器可以有效地 更多的信息特征来提高卷积层的特征表示能力,在
避免强背景噪声的干扰 [2] 。重构骨导语声的高频 此基础上提出一种混合损失函数,在时域和频域上
成分,提升其听感,可以极大地促进骨导语声在实 对模型进行联合优化。以上工作说明 CNN 和注意
际中的应用价值。目前针对骨导语声增强的研究 力机制等基于深度学习的方法在语声增强任务中
主要分为两大类。一类是融合性的增强方法,将其 具有优秀的特征提取能力和准确的高维映射表征
与气导语声相结合,既利用气导语声高频成分丰 能力,且通过互补网络结构的设计克服不同方法的
富的优点,也借助于骨导语声优秀的抗噪性能,实 局限性,兼顾特征提取与上下文信息关联,能有效提
现融合性的增强 [3−5] 。Zhou 等 [6] 从骨导信号中获 升语声增强的质量,对骨导语声增强具有借鉴意义。
得准确的语声激活检测 (Voice activity detection, 编码 -解码 (Encoder-Decoder) 结构是一种序
VAD),并将其纳入自适应噪声消除器和自适应块 列问题的模型框架,被广泛应用于自然语言处理、语
矩阵中,在多噪声类型和多噪声强度上提供了显 声识别等任务。其显著特征是它是一个端到端的模
著的效果改善。Yu 等 [7] 提出了一种新的多模态语 型,在序列问题处理上应用广泛,且其结构非常灵
声增强结构,利用骨传导和空气传导信号,提出前 活,编码层和解码层可以根据实际问题选择不同的
期融合和后期融合两种集成学习的策略,利用全 网络,使用一些低复杂度的网络也可得到较好的效
卷积网络(Fully convolutional network, FCN)进行 果。基于Encoder-Decoder框架,大量文献利用卷积
增强。另一类是仅依据骨导语声进行盲增强,试 网络、循环网络等对其进行编码得到语义编码向量
图重构高频成分 [8−9] ,得到与气导语声尽可能相 后,在解码层对其进行增强,在时频域上实现语声增
似的增强语声,提高其语声质量、可懂度和主观听 强 [14−18] 。Tan等 [19−21] 结合CNN与循环神经网络
感。Liu 等 [10] 为了提升骨导语声在自动语声识别 构建 Encoder-Decoder 框架用来实现时频域的语声
(Automatic speech recognition, ASR) 系统中的表 增强,取得了显著的效果。
现,提出了一种新的深度去噪自编码方法构建气导 最早用于医学图像分割问题的一种新型编
与骨导之间的映射关系,并将增强后的骨导语声输 解码网络 U-Net [22] 近些年来广泛应用在语声分
入ASR系统,实验证明该方法有效提升了语声质量 离 [23−24] 、语声增强 [25−26] 中。U-Net的U型结构共
和可懂度。与融合性增强方法相比,骨导语声盲增 进行了 4 次下采样和 4 次上采样,同时在对应编解
强的应用场景更贴近实际,硬件部署难度更小,因此 码层之间引入了跳跃连接,而不是直接在编码得到
本文针对骨导语声盲增强方法进行研究。 的高维特征上进行反向传播和监督学习,这样有利
近年来,已经有大量基于深度学习的方法应用 于解码重构时恢复更多低维的特征,实现多尺度特
在语声增强上,与传统的骨导语声增强方法相比, 征融合。因为 U-Net 对于结构复杂度不是很高的图
深度学习模型对于语声特征的高维表征能力得到 像和小样本数据也能产生较好的效果,这些特点与
了极大的提升,能够较好地拟合气导语声到骨导语 骨导语声语谱图恰好吻合,因此本文研究基于改进
声的非线性复杂映射。目前主流方法是将语声信 U-Net 用于骨导语声增强。由于 U-Net 模型在编码