Page 155 - 《应用声学》2023年第4期

P. 155

第 42 卷第 4 期邦锦阳等： Att-U-Net：融合注意力机制的 U-Net 骨导语声增强 817

在训练阶段，通过构建的结合注意力机制的征与低维特征都会对结果产生重要影响，U-Net 的
U-Net网络建立骨导语声与气导语声的幅度谱映射跳跃连接部分恰好解决了这个问题。语声语谱图中
关系，损失函数采用均方误差(Mean squared error, 的频谱结构具有一定的规律性，且本文使用的骨导
MSE)，其计算公式为语声数据集是小样本数据集，因此 U-Net 适用于本
n
1 ∑ ( 2 ′2 ) 场景下的语声增强。U-Net 的编码器由 4 层卷积模
MSE = y − y i , (1)
i
n 块和 4 个最大池化层构成，每个卷积模块中有两个
i=1
其中，y 为气导语声的幅度谱，y 为预测语声的幅度卷积层和两个 ReLU 激活层，实现对输入数据的隐
′
谱，n为语声条数。网络优化目标为最小化MSE，选层特征提取，最大池化层实现对数据的降维。解码
择梯度下降法对网络参数进行训练优化。器由 4 层上采样层和 4 层卷积模块构成，数据经过
在增强阶段，仅将待增强的语声对数幅度谱输上采样和注意力模块的升维和权重计算后进入卷
入网络得到增强幅度谱后，与原待增强语声的相积模块，由卷积模块重构数据。另外，U-Net 网络中
位谱通过傅里叶逆变换(Inverse short time Fourier 采用了跳跃连接，将对应层的编码器和解码器用跳
transform, ISTFT)合成得到增强后语声波形。跃连接的方式连接起来，将编码器中的低维特征与

1.2 编解码网络Att-U-Net的设计解码器的高维特征拼接起来后进行数据重构，使解
U-Net在结构复杂度不高的图像和小样本数据码器能够结合编码前的低维特征和编码后的高维
集上具有优势，因为对于复杂度不高的图像，高维特特征，实现多尺度的特征融合。

fTf fTf

Input Output
fT⊳f fT⊳f

fTffTf
fTf
fT⊳f fT⊳f

fT⊳f
fT⊳f
Ԅሥവڱ
ฌਓҧവڱ
fT⊳f
fT⊳f
෉ӑࡏ
ʽ᧔ನ
f Ԅሥ
fT⊳f fT⊳f
图 2 Att-U-Net 网络结构图
Fig. 2 Att-U-Net network structure diagram
融合 Attention 机制的 U-Net 算法在图像分割网络在跳跃连接部分直接将编码层的隐层状态直
中已有应用 [29−30] 。上述两项工作都是在已知信息接与对应解码层的输入拼接成为一个更高维的特
中分割出目标信息，对于解码时的准确性要求较征向量，也就是说，所有解码层在重构数据时都是

高。而骨导语声增强需要恢复未知的高频成分，所无选择性地利用了所有的输入数据，而且也没有利
以编码后的语义特征以及编码时得到的浅层特征用输入数据的上下文关联信息。为了在重构数据时
对恢复高频信息同样重要，因此在标准 U-Net 的跳模型可以关注到上下文信息间的关联信息，同时抑
跃连接部分引入了 Attention 机制。标准的 U-Net 制不重要信息对重构数据的影响。在U-Net 的跳跃

150 151 152 153 154 155 156 157 158 159 160