Page 160 - 《应用声学》2023年第4期
P. 160
822 2023 年 7 月
4 4 4
3 3 3
ᮠဋ/kHz 2 ᮠဋ/kHz 2 ᮠဋ/kHz 2
1 1 1
0 0 0
0 1 2 3 0 1 2 3 0 1 2 3
ᫎ/s ᫎ/s ᫎ/s
(a) ඡឦܦ (b) ᰤឦܦ (c) ፃLSTMவขܙूᄊឦܦ
4 4 4
3 3 3
ᮠဋ/kHz 2 ᮠဋ/kHz 2 ᮠဋ/kHz 2
1 1 1
0 0 0
0 1 2 3 0 1 2 3 0 1 2 3
ᫎ/s ᫎ/s ᫎ/s
(d) ፃCRNNவขܙूᄊឦܦ (e) ፃU-Netவขܙूᄊឦܦ (f) ፃAtt-U-Netவขܙूᄊឦܦ
图 6 经过不同方法增强的语谱图
Fig. 6 Spectrogram enhanced by different methods
ᎄᆊࡏᣥѣ
ฌਓҧጇ
ᡤᤌଌ
ᣥѣ
Attention 1 Attention 2 Attention 3
图 7 Attention 模块可视化
Fig. 7 Attention module visualization
从图 7 可以看出,引入 Attention 后,在语声中 消除了部分中频共振,这说明中频部分的信息对于
间部分的无声段和语谱图顶端,3 个注意力模块滤 骨导语声高频信息恢复的影响权重不大,由于骨导
除了原特征中的一些噪点,有效保留了有声段的时 语声的低频成分相比气导语声更厚重,且多了一部
频结构特征,语谱图中频谱结构更为清晰。沿时间 分中频谐波成分,通过注意力机制,滤除了这部分信
轴方向,3 个注意力模块的权重矩阵都有效地区分 息,将原特征有选择性地传递给解码层,恢复出更逼
了有声段和无声段,抑制了无声段中的不相关信息, 真,听感质量更好的语声信号。
将大量与输出结果相关的编码特征通过跳跃连接
3 结论
传递到解码层中,提高了用于训练网络的数据质量。
沿频率轴方向,从3 张注意力系数图中可以看出,低 本文提出了一种结合注意力机制和编解码网
频和高频部分始终保持高亮,说明 Attention 机制 络的骨导语声增强模型,通过在跳跃连接中引入注
对于低频和高频信息始终保持较高的关注度,且随 意力机制,使模型可以重点关注输入信息的重要部
着网络层数深入,高频特征的权重逐渐增加,高频信 分,同时抑制不相关的信息,通过引入注意力机制,
息逐步得到恢复。同时,图中可以发现注意力机制 解决了编解码网络对于长序列数据信息丢失的问