Page 159 - 《应用声学》2023年第4期
P. 159

第 42 卷 第 4 期          邦锦阳等: Att-U-Net:融合注意力机制的 U-Net 骨导语声增强                                 821


                 Att-U-Net 网络的参数如表 1 所示。其中卷积                   强质量进一步提升。其中说话人女 1 的语声增强效
             层参数分别代表通道数 (channels)、卷积核大小                       果不佳,通过对原始数据的比对发现,该说话人采
             (kernel size)、步长 (stride)、填充数 (padding),池化        集到的原始骨导语声质量欠佳,部分语句咬字不清
             层参数分别代表核大小 (kernel size)、步长 (stride)。             晰,从而影响了语声增强的质量。Att-U-Net与3 个
             在解码层中的 Upconv 层中,同时进行了对齐操作                        对比模型相比,在 3 个客观指标上均取得了最好的
             和拼接操作。模型的初始学习率为 0.002,当验证集                        效果,证明了所提方法的有效性。
             误差不再减少时学习率降低为原来的一半,直到验                                通过对比不同性别的实验对象 3 种指标的得
             证集误差连续5轮不下降训练停止。                                  分,发现男声的平均值要高于女声,推测是因为女声
             2.3 实验结果与分析                                       的高频成分较为丰富,而男声发音较低沉,男声低频
                                                               成分比重较大,利于恢复出高频成分,相比之下女声
                 本节对 2.2 节中改进的网络结构以及 3 种对比
                                                               的高频成分更难恢复。
             方法进行了实验,分别是 U-Net(4 层编码和 4 层解
                                                                   此外,实验结果表明,加入 Attention 机制后,
             码)、CRNN、LSTM与所提出的Att-U-Net结构。测
                                                               Att-U-Net 的模型参数量仅比 U-Net 模型增加了
             得 4 种模型在不同实验对象下的 PESQ、STOI 与
                                                               1.9%,在保证模型轻量、计算复杂度低的前提下,完
             LSD值如表2∼表4所示。
                                                               成了增强质量的提升。
                 表 2  4 种模型在不同实验对象下的 PESQ 值                        图6给出了一段女声经过不同模型增强的增强
                Table 2 PESQ scores of four models for         语声语谱图。从图中可以看出,4 种方法都能有效
                different speakers
                                                               地解决骨导语声低频成分厚重的问题,在低频部
                                                               分,4 种方法都恢复出了较为清晰的频谱结构,而在
                            女 1  女 2   男 1  男 2  平均值
                   U-Net   2.899 3.094 3.214 3.037  3.061      高频部分,4 种方法虽然都能恢复一定的音素成分,
                   CRNN    2.876 3.003 3.133 3.087  3.025      改善了语声质量和听感,但从细节来看,缺乏清晰
                   LSTM    2.890 3.141 3.053 2.915  3.000
                                                               的频谱结构。图 6(c) 和图 6(d) 的矩形框中,LSTM
                  Att-U-Net 3.046 3.214 3.289 3.198  3.187
                                                               和 CRNN 增强的语声在高频部分具有一定的频谱
                 表 3  4 种模型在不同实验对象下的 STOI 值                    结构,其他部分的高频成分恢复不足,尤其是对
                Table 3  STOI scores of four models for        于高频部分的摩擦声和清声,几乎很难恢复出音
                different speakers                              素。从图 6(e) 和图 6(f) 的矩形框中可以看出,经过
                                                               Att-U-Net方法增强的语声能更好地恢复高频的频
                            女 1  女 2   男 1  男 2  平均值
                                                               谱结构,在清声和摩擦声部分也恢复出了一定的音
                   U-Net   0.791 0.842 0.874 0.861  0.842
                   CRNN    0.781 0.831 0.862 0.842  0.829      素成分,整体上更接近目标语声。
                   LSTM    0.774 0.827 0.870 0.849  0.830
                                                               2.4  可视化分析
                  Att-U-Net 0.801 0.865 0.894 0.867  0.857
                                                                   为了探索引入 Attention 机制对 U-Net 在编解
                 表 4   4 种模型在不同实验对象下的 LSD 值                    码过程中如何发挥作用,显示编码层中对解码层的
                Table 4 LSD scores of four models for dif-     预测影响权重大的数据区域,本节对Att-U-Net中3
                ferent speakers                                层跳跃连接的注意力模块进行了可视化分析,结果
                                                               如图 7 所示。从左至右分别为第一层至第三层跳跃
                            女 1  女 2   男 1  男 2  平均值
                                                               连接,自上而下分别表示编码层输出、经注意力模
                   U-Net   0.954  0.904  0.884  0.894  0.909
                   CRNN    0.978  0.912  0.897  0.914  0.925   块计算出的注意力系数、跳跃连接部分的输出,即
                   LSTM    0.964  0.909  0.891  0.907  0.918   前两者的乘积。其中,注意力系数颜色越亮的部分,
                  Att-U-Net 0.924  0.891  0.813  0.882  0.878
                                                               注意力机制分配的权重系数越大。由于随着网络层
                 从上述表中可以看出,引入 Attention 机制后,                   数的加深,卷积通道数逐渐递增,为便于可视化分
             Att-U-Net 的效果比 U-Net 有所提升,PESQ、STOI               析,将所有通道的特征求平均值得到一张二维特征
             和LSD指标分别提升了4.1%,1.8%和3.4%,语声增                     图进行分析。
   154   155   156   157   158   159   160   161   162   163   164