Page 155 - 《应用声学》2023年第4期
P. 155
第 42 卷 第 4 期 邦锦阳等: Att-U-Net:融合注意力机制的 U-Net 骨导语声增强 817
在训练阶段,通过构建的结合注意力机制的 征与低维特征都会对结果产生重要影响,U-Net 的
U-Net网络建立骨导语声与气导语声的幅度谱映射 跳跃连接部分恰好解决了这个问题。语声语谱图中
关系,损失函数采用均方误差(Mean squared error, 的频谱结构具有一定的规律性,且本文使用的骨导
MSE),其计算公式为 语声数据集是小样本数据集,因此 U-Net 适用于本
n
1 ∑ ( 2 ′2 ) 场景下的语声增强。U-Net 的编码器由 4 层卷积模
MSE = y − y i , (1)
i
n 块和 4 个最大池化层构成,每个卷积模块中有两个
i=1
其中,y 为气导语声的幅度谱,y 为预测语声的幅度 卷积层和两个 ReLU 激活层,实现对输入数据的隐
′
谱,n为语声条数。网络优化目标为最小化MSE,选 层特征提取,最大池化层实现对数据的降维。解码
择梯度下降法对网络参数进行训练优化。 器由 4 层上采样层和 4 层卷积模块构成,数据经过
在增强阶段,仅将待增强的语声对数幅度谱输 上采样和注意力模块的升维和权重计算后进入卷
入网络得到增强幅度谱后,与原待增强语声的相 积模块,由卷积模块重构数据。另外,U-Net 网络中
位谱通过傅里叶逆变换(Inverse short time Fourier 采用了跳跃连接,将对应层的编码器和解码器用跳
transform, ISTFT)合成得到增强后语声波形。 跃连接的方式连接起来,将编码器中的低维特征与
1.2 编解码网络Att-U-Net的设计 解码器的高维特征拼接起来后进行数据重构,使解
U-Net在结构复杂度不高的图像和小样本数据 码器能够结合编码前的低维特征和编码后的高维
集上具有优势,因为对于复杂度不高的图像,高维特 特征,实现多尺度的特征融合。
fTf fTf
Input Output
fT⊳f fT⊳f
fTffTf
fTf
fT⊳f fT⊳f
fT⊳f
fT⊳f
Ԅሥവڱ
ฌਓҧവڱ
fT⊳f
fT⊳f
ӑࡏ
ʽ᧔ನ
f Ԅሥ
fT⊳f fT⊳f
图 2 Att-U-Net 网络结构图
Fig. 2 Att-U-Net network structure diagram
融合 Attention 机制的 U-Net 算法在图像分割 网络在跳跃连接部分直接将编码层的隐层状态直
中已有应用 [29−30] 。上述两项工作都是在已知信息 接与对应解码层的输入拼接成为一个更高维的特
中分割出目标信息,对于解码时的准确性要求较 征向量,也就是说,所有解码层在重构数据时都是
高。而骨导语声增强需要恢复未知的高频成分,所 无选择性地利用了所有的输入数据,而且也没有利
以编码后的语义特征以及编码时得到的浅层特征 用输入数据的上下文关联信息。为了在重构数据时
对恢复高频信息同样重要,因此在标准 U-Net 的跳 模型可以关注到上下文信息间的关联信息,同时抑
跃连接部分引入了 Attention 机制。标准的 U-Net 制不重要信息对重构数据的影响。在U-Net 的跳跃