Page 154 - 《应用声学》2023年第4期
P. 154

816                                                                                  2023 年 7 月


             阶段将所有输入数据压缩为一个固定长度的语义                             了 ISBI 2015 细胞追踪挑战赛和龋齿检测挑战赛的
             编码向量。这是一个有损压缩,过程中会产生信息                            冠军。U-Net是一种典型的编解码结构,编码层和解
             丢失的问题,随着序列长度的增加,深层的特征会                            码层相互对称,结构类似于 “U” 型而得名。在恢复
             不断覆盖浅层的特征,信息丢失会更加严重,解码                            丢失的高频成分与预测结果时,与高频成分相关程
             阶段的质量自然会受到影响。且语声信号作为一种                            度大的输入数据,应分配更大的权重。为了使模型
             时序信号,上下文内容间存在关联性,U-Net采用多                         能定位重要信息,区分相关与不相关信息,在U-Net
             层卷积与反卷积结构,无法关注到语声序列中时频                            的跳跃连接中引入了 Attention 机制,将输入数据
             结构的关联信息。因此需要一种能够关注全局关联                            有选择性地传入解码层,以达到更好地恢复丢失高
             信息的结构来提升 U-Net 模型对于骨导语声增强                         频成分的目的。
             的性能。据此,本文在 U-Net 的跳跃连接中引入了
             Attention 机制。Attention 机制模仿人类的视觉注                 1.1  算法的总体框架
             意力  [27] ,能够快速将关注点聚焦于重要区域。引入                          融合注意力机制的编解码网络总体框架如图 1
             Attention的优势在于在解码阶段中,解码器不再依                       所示。本方法是基于气导语声与骨导语声的语谱图
             据同一个语义编码向量,而是根据目标语声与源语                            来实现骨导语声增强。在数据预处理阶段,所有归
             声不同的重要性关联程度,分配注意力系数,把与当                           一化后的语声信号经过分帧加窗、短时傅里叶变换
             前解码序列关联性较大的时频结构信息通过跳跃                             (Short time Fourier transform, STFT)后取对数得
             连接送入解码器,从而提升骨导语声增强的效果。                            到语声对数幅度谱和相位谱。近年来,研究表明相
                                                               位信息对于语声增强效果具有重要的作用                     [28] 。然
             1 融合注意力机制的U-Net网络增强算法
                                                               而由于相位信息不易估计,语声幅度谱的增强已能

                 本文的工作基于 U-Net 网络         [22] ,U-Net 网络在      够满足目前骨导语声增强的大部分需求,因此只对
             医学图像分割中展示出了强大的性能,该方法获得                            语声对数幅度谱进行增强。
                              ᰤ࠮ឦܦ                                                        ඡ࠮ឦܦ





                             ฉॎॆʷӑnj                             ԦՔ͜୧                     ฉॎॆʷӑnj
                      ᝫ        Ѭࣝҫቔ                                                       Ѭࣝҫቔ
                      ጷ                             Att-U-Net               ૯ܿѦ஝
                                                                             MSE
                      ᫽        STFT                                                        STFT
                      ඀                              Att-skip

                                                Encoder   Decoder

                            ᰤ࠮ឦܦឦ៨ڏ                                       ܙूឦܦឦ៨ڏ       ඡ࠮ឦܦឦ៨ڏ
                          ॠܙूᰤ࠮ឦܦឦ៨ڏ

                                                    Att-U-Net
                      ܙ
                      ू
                      ᫽        STFT                   ᄱͯ៨                    ISTFT
                      ඀
                             ฉॎॆʷӑnj
                              Ѭࣝҫቔ

                            ॠܙूᰤ࠮ឦܦ                                         ܙूឦܦ
                                           图 1  融合注意力机制的编解码网络总体框架
                                Fig. 1 Encoder-Decoder structure combined with attention mechanism
   149   150   151   152   153   154   155   156   157   158   159