Page 159 - 《应用声学》2023年第4期
P. 159
第 42 卷 第 4 期 邦锦阳等: Att-U-Net:融合注意力机制的 U-Net 骨导语声增强 821
Att-U-Net 网络的参数如表 1 所示。其中卷积 强质量进一步提升。其中说话人女 1 的语声增强效
层参数分别代表通道数 (channels)、卷积核大小 果不佳,通过对原始数据的比对发现,该说话人采
(kernel size)、步长 (stride)、填充数 (padding),池化 集到的原始骨导语声质量欠佳,部分语句咬字不清
层参数分别代表核大小 (kernel size)、步长 (stride)。 晰,从而影响了语声增强的质量。Att-U-Net与3 个
在解码层中的 Upconv 层中,同时进行了对齐操作 对比模型相比,在 3 个客观指标上均取得了最好的
和拼接操作。模型的初始学习率为 0.002,当验证集 效果,证明了所提方法的有效性。
误差不再减少时学习率降低为原来的一半,直到验 通过对比不同性别的实验对象 3 种指标的得
证集误差连续5轮不下降训练停止。 分,发现男声的平均值要高于女声,推测是因为女声
2.3 实验结果与分析 的高频成分较为丰富,而男声发音较低沉,男声低频
成分比重较大,利于恢复出高频成分,相比之下女声
本节对 2.2 节中改进的网络结构以及 3 种对比
的高频成分更难恢复。
方法进行了实验,分别是 U-Net(4 层编码和 4 层解
此外,实验结果表明,加入 Attention 机制后,
码)、CRNN、LSTM与所提出的Att-U-Net结构。测
Att-U-Net 的模型参数量仅比 U-Net 模型增加了
得 4 种模型在不同实验对象下的 PESQ、STOI 与
1.9%,在保证模型轻量、计算复杂度低的前提下,完
LSD值如表2∼表4所示。
成了增强质量的提升。
表 2 4 种模型在不同实验对象下的 PESQ 值 图6给出了一段女声经过不同模型增强的增强
Table 2 PESQ scores of four models for 语声语谱图。从图中可以看出,4 种方法都能有效
different speakers
地解决骨导语声低频成分厚重的问题,在低频部
分,4 种方法都恢复出了较为清晰的频谱结构,而在
女 1 女 2 男 1 男 2 平均值
U-Net 2.899 3.094 3.214 3.037 3.061 高频部分,4 种方法虽然都能恢复一定的音素成分,
CRNN 2.876 3.003 3.133 3.087 3.025 改善了语声质量和听感,但从细节来看,缺乏清晰
LSTM 2.890 3.141 3.053 2.915 3.000
的频谱结构。图 6(c) 和图 6(d) 的矩形框中,LSTM
Att-U-Net 3.046 3.214 3.289 3.198 3.187
和 CRNN 增强的语声在高频部分具有一定的频谱
表 3 4 种模型在不同实验对象下的 STOI 值 结构,其他部分的高频成分恢复不足,尤其是对
Table 3 STOI scores of four models for 于高频部分的摩擦声和清声,几乎很难恢复出音
different speakers 素。从图 6(e) 和图 6(f) 的矩形框中可以看出,经过
Att-U-Net方法增强的语声能更好地恢复高频的频
女 1 女 2 男 1 男 2 平均值
谱结构,在清声和摩擦声部分也恢复出了一定的音
U-Net 0.791 0.842 0.874 0.861 0.842
CRNN 0.781 0.831 0.862 0.842 0.829 素成分,整体上更接近目标语声。
LSTM 0.774 0.827 0.870 0.849 0.830
2.4 可视化分析
Att-U-Net 0.801 0.865 0.894 0.867 0.857
为了探索引入 Attention 机制对 U-Net 在编解
表 4 4 种模型在不同实验对象下的 LSD 值 码过程中如何发挥作用,显示编码层中对解码层的
Table 4 LSD scores of four models for dif- 预测影响权重大的数据区域,本节对Att-U-Net中3
ferent speakers 层跳跃连接的注意力模块进行了可视化分析,结果
如图 7 所示。从左至右分别为第一层至第三层跳跃
女 1 女 2 男 1 男 2 平均值
连接,自上而下分别表示编码层输出、经注意力模
U-Net 0.954 0.904 0.884 0.894 0.909
CRNN 0.978 0.912 0.897 0.914 0.925 块计算出的注意力系数、跳跃连接部分的输出,即
LSTM 0.964 0.909 0.891 0.907 0.918 前两者的乘积。其中,注意力系数颜色越亮的部分,
Att-U-Net 0.924 0.891 0.813 0.882 0.878
注意力机制分配的权重系数越大。由于随着网络层
从上述表中可以看出,引入 Attention 机制后, 数的加深,卷积通道数逐渐递增,为便于可视化分
Att-U-Net 的效果比 U-Net 有所提升,PESQ、STOI 析,将所有通道的特征求平均值得到一张二维特征
和LSD指标分别提升了4.1%,1.8%和3.4%,语声增 图进行分析。