Page 159 - 《应用声学》2023年第4期

P. 159

第 42 卷第 4 期邦锦阳等： Att-U-Net：融合注意力机制的 U-Net 骨导语声增强 821

Att-U-Net 网络的参数如表 1 所示。其中卷积强质量进一步提升。其中说话人女 1 的语声增强效
层参数分别代表通道数 (channels)、卷积核大小果不佳，通过对原始数据的比对发现，该说话人采
(kernel size)、步长 (stride)、填充数 (padding)，池化集到的原始骨导语声质量欠佳，部分语句咬字不清
层参数分别代表核大小 (kernel size)、步长 (stride)。晰，从而影响了语声增强的质量。Att-U-Net与3 个
在解码层中的 Upconv 层中，同时进行了对齐操作对比模型相比，在 3 个客观指标上均取得了最好的
和拼接操作。模型的初始学习率为 0.002，当验证集效果，证明了所提方法的有效性。
误差不再减少时学习率降低为原来的一半，直到验通过对比不同性别的实验对象 3 种指标的得
证集误差连续5轮不下降训练停止。分，发现男声的平均值要高于女声，推测是因为女声
2.3 实验结果与分析的高频成分较为丰富，而男声发音较低沉，男声低频
成分比重较大，利于恢复出高频成分，相比之下女声
本节对 2.2 节中改进的网络结构以及 3 种对比
的高频成分更难恢复。
方法进行了实验，分别是 U-Net(4 层编码和 4 层解
此外，实验结果表明，加入 Attention 机制后，
码)、CRNN、LSTM与所提出的Att-U-Net结构。测
Att-U-Net 的模型参数量仅比 U-Net 模型增加了
得 4 种模型在不同实验对象下的 PESQ、STOI 与
1.9%，在保证模型轻量、计算复杂度低的前提下，完
LSD值如表2∼表4所示。
成了增强质量的提升。
表 2 4 种模型在不同实验对象下的 PESQ 值图6给出了一段女声经过不同模型增强的增强
Table 2 PESQ scores of four models for 语声语谱图。从图中可以看出，4 种方法都能有效
diﬀerent speakers
地解决骨导语声低频成分厚重的问题，在低频部
分，4 种方法都恢复出了较为清晰的频谱结构，而在
女 1 女 2 男 1 男 2 平均值
U-Net 2.899 3.094 3.214 3.037 3.061 高频部分，4 种方法虽然都能恢复一定的音素成分，
CRNN 2.876 3.003 3.133 3.087 3.025 改善了语声质量和听感，但从细节来看，缺乏清晰
LSTM 2.890 3.141 3.053 2.915 3.000
的频谱结构。图 6(c) 和图 6(d) 的矩形框中，LSTM
Att-U-Net 3.046 3.214 3.289 3.198 3.187
和 CRNN 增强的语声在高频部分具有一定的频谱
表 3 4 种模型在不同实验对象下的 STOI 值结构，其他部分的高频成分恢复不足，尤其是对
Table 3 STOI scores of four models for 于高频部分的摩擦声和清声，几乎很难恢复出音
diﬀerent speakers 素。从图 6(e) 和图 6(f) 的矩形框中可以看出，经过
Att-U-Net方法增强的语声能更好地恢复高频的频
女 1 女 2 男 1 男 2 平均值
谱结构，在清声和摩擦声部分也恢复出了一定的音
U-Net 0.791 0.842 0.874 0.861 0.842
CRNN 0.781 0.831 0.862 0.842 0.829 素成分，整体上更接近目标语声。
LSTM 0.774 0.827 0.870 0.849 0.830
2.4 可视化分析
Att-U-Net 0.801 0.865 0.894 0.867 0.857
为了探索引入 Attention 机制对 U-Net 在编解
表 4 4 种模型在不同实验对象下的 LSD 值码过程中如何发挥作用，显示编码层中对解码层的
Table 4 LSD scores of four models for dif- 预测影响权重大的数据区域，本节对Att-U-Net中3
ferent speakers 层跳跃连接的注意力模块进行了可视化分析，结果
如图 7 所示。从左至右分别为第一层至第三层跳跃
女 1 女 2 男 1 男 2 平均值
连接，自上而下分别表示编码层输出、经注意力模
U-Net 0.954 0.904 0.884 0.894 0.909
CRNN 0.978 0.912 0.897 0.914 0.925 块计算出的注意力系数、跳跃连接部分的输出，即
LSTM 0.964 0.909 0.891 0.907 0.918 前两者的乘积。其中，注意力系数颜色越亮的部分，
Att-U-Net 0.924 0.891 0.813 0.882 0.878
注意力机制分配的权重系数越大。由于随着网络层
从上述表中可以看出，引入 Attention 机制后，数的加深，卷积通道数逐渐递增，为便于可视化分
Att-U-Net 的效果比 U-Net 有所提升，PESQ、STOI 析，将所有通道的特征求平均值得到一张二维特征
和LSD指标分别提升了4.1%，1.8%和3.4%，语声增图进行分析。

154 155 156 157 158 159 160 161 162 163 164