Page 160 - 《应用声学》2023年第4期
P. 160

822                                                                                  2023 年 7 月


                      4                           4                            4
                      3                           3                            3
                    ᮠဋ/kHz  2                   ᮠဋ/kHz  2                     ᮠဋ/kHz  2

                      1                           1                            1

                      0                           0                            0
                       0    1    2    3            0    1    2    3              0    1    2    3
                                ௑ᫎ/s                       ௑ᫎ/s                           ௑ᫎ/s
                              (a) ඡ࠮ឦܦ                   (b) ᰤ࠮ឦܦ                  (c) ፃLSTMவขܙूᄊឦܦ

                      4                           4                            4
                      3                           3                            3
                    ᮠဋ/kHz  2                   ᮠဋ/kHz  2                     ᮠဋ/kHz  2

                      1                           1                            1

                      0                           0                            0
                       0    1    2    3            0    1    2    3              0    1    2    3
                                ௑ᫎ/s                       ௑ᫎ/s                           ௑ᫎ/s
                        (d) ፃCRNNவขܙूᄊឦܦ             (e) ፃU-Netவขܙूᄊឦܦ            (f) ፃAtt-U-Netவขܙूᄊឦܦ
                                                图 6  经过不同方法增强的语谱图
                                        Fig. 6 Spectrogram enhanced by different methods


                  ᎄᆊࡏᣥѣ



                  ฌਓҧጇ஝


                   ᡺ᡤᤌଌ
                    ᣥѣ
                                  Attention 1                Attention 2               Attention 3
                                                  图 7  Attention 模块可视化
                                             Fig. 7 Attention module visualization


                 从图 7 可以看出,引入 Attention 后,在语声中                 消除了部分中频共振,这说明中频部分的信息对于
             间部分的无声段和语谱图顶端,3 个注意力模块滤                           骨导语声高频信息恢复的影响权重不大,由于骨导
             除了原特征中的一些噪点,有效保留了有声段的时                            语声的低频成分相比气导语声更厚重,且多了一部
             频结构特征,语谱图中频谱结构更为清晰。沿时间                            分中频谐波成分,通过注意力机制,滤除了这部分信
             轴方向,3 个注意力模块的权重矩阵都有效地区分                           息,将原特征有选择性地传递给解码层,恢复出更逼
             了有声段和无声段,抑制了无声段中的不相关信息,                           真,听感质量更好的语声信号。
             将大量与输出结果相关的编码特征通过跳跃连接
                                                               3 结论
             传递到解码层中,提高了用于训练网络的数据质量。
             沿频率轴方向,从3 张注意力系数图中可以看出,低                              本文提出了一种结合注意力机制和编解码网
             频和高频部分始终保持高亮,说明 Attention 机制                      络的骨导语声增强模型,通过在跳跃连接中引入注
             对于低频和高频信息始终保持较高的关注度,且随                            意力机制,使模型可以重点关注输入信息的重要部
             着网络层数深入,高频特征的权重逐渐增加,高频信                           分,同时抑制不相关的信息,通过引入注意力机制,
             息逐步得到恢复。同时,图中可以发现注意力机制                            解决了编解码网络对于长序列数据信息丢失的问
   155   156   157   158   159   160   161   162   163   164   165