Page 155 - 《应用声学》2023年第4期
P. 155

第 42 卷 第 4 期          邦锦阳等: Att-U-Net:融合注意力机制的 U-Net 骨导语声增强                                 817


                 在训练阶段,通过构建的结合注意力机制的                           征与低维特征都会对结果产生重要影响,U-Net 的
             U-Net网络建立骨导语声与气导语声的幅度谱映射                          跳跃连接部分恰好解决了这个问题。语声语谱图中
             关系,损失函数采用均方误差(Mean squared error,                 的频谱结构具有一定的规律性,且本文使用的骨导
             MSE),其计算公式为                                       语声数据集是小样本数据集,因此 U-Net 适用于本
                                   n
                                1  ∑ (  2   ′2  )              场景下的语声增强。U-Net 的编码器由 4 层卷积模
                        MSE =         y − y i  ,        (1)
                                       i
                                n                              块和 4 个最大池化层构成,每个卷积模块中有两个
                                  i=1
             其中,y 为气导语声的幅度谱,y 为预测语声的幅度                         卷积层和两个 ReLU 激活层,实现对输入数据的隐
                                         ′
             谱,n为语声条数。网络优化目标为最小化MSE,选                          层特征提取,最大池化层实现对数据的降维。解码
             择梯度下降法对网络参数进行训练优化。                                器由 4 层上采样层和 4 层卷积模块构成,数据经过
                 在增强阶段,仅将待增强的语声对数幅度谱输                          上采样和注意力模块的升维和权重计算后进入卷
             入网络得到增强幅度谱后,与原待增强语声的相                             积模块,由卷积模块重构数据。另外,U-Net 网络中
             位谱通过傅里叶逆变换(Inverse short time Fourier             采用了跳跃连接,将对应层的编码器和解码器用跳
             transform, ISTFT)合成得到增强后语声波形。                     跃连接的方式连接起来,将编码器中的低维特征与

             1.2 编解码网络Att-U-Net的设计                             解码器的高维特征拼接起来后进行数据重构,使解
                 U-Net在结构复杂度不高的图像和小样本数据                        码器能够结合编码前的低维特征和编码后的高维
             集上具有优势,因为对于复杂度不高的图像,高维特                           特征,实现多尺度的特征融合。

                                 fTf                                fTf




                          Input                                                           Output
                                        fT⊳f            fT⊳f

                                                                               fTffTf
                           fTf
                                             fT⊳f   fT⊳f

                                                                       fT⊳f
                                 fT⊳f
                                                                                   Ԅሥവڱ
                                                                                  ฌਓҧവڱ
                                                                fT⊳f
                                         fT⊳f
                                                                                    ෉ӑࡏ
                                                                                    ʽ᧔ನ
                                                                                   f Ԅሥ
                                               fT⊳f fT⊳f
                                                  图 2  Att-U-Net 网络结构图
                                           Fig. 2 Att-U-Net network structure diagram
                 融合 Attention 机制的 U-Net 算法在图像分割                网络在跳跃连接部分直接将编码层的隐层状态直
             中已有应用     [29−30] 。上述两项工作都是在已知信息                  接与对应解码层的输入拼接成为一个更高维的特
             中分割出目标信息,对于解码时的准确性要求较                             征向量,也就是说,所有解码层在重构数据时都是

             高。而骨导语声增强需要恢复未知的高频成分,所                            无选择性地利用了所有的输入数据,而且也没有利
             以编码后的语义特征以及编码时得到的浅层特征                             用输入数据的上下文关联信息。为了在重构数据时
             对恢复高频信息同样重要,因此在标准 U-Net 的跳                        模型可以关注到上下文信息间的关联信息,同时抑
             跃连接部分引入了 Attention 机制。标准的 U-Net                   制不重要信息对重构数据的影响。在U-Net 的跳跃
   150   151   152   153   154   155   156   157   158   159   160