Page 157 - 《应用声学》2023年第4期
P. 157
第 42 卷 第 4 期 邦锦阳等: Att-U-Net:融合注意力机制的 U-Net 骨导语声增强 819
特征,不同的编解码层得到的特征维度不统一,因 训练目标气导语声数据为参照,计算训练误差,并优
此在注意力模块中,多次利用1 ∗ 1 卷积进行数据升 化模型参数 θ n ,直到训练轮次结束或连续 5 轮误差
维和降维,以保证数据u、x和α 的尺寸大小一致,便 不再下降。
于计算。1 ∗ 1的卷积核可以实现跨通道的信息交互 (3) 在增强阶段,待增强语声经过数据预处理
和数据整合,而且可以改变数据的维度,同时 1 ∗ 1 后输入训练好的模型,得到估计对数幅度谱,最后与
的卷积非常节省计算量。在数学上,1 ∗ 1 卷积本质 对应原始骨导语声相位谱进行快速傅里叶逆变换
就是向量的线性组合,因此,一般在 1 ∗ 1 的卷积后 和重叠加操作得到增强后的语声波形。
会加入一个非线性激活函数,增加更多的非线性因
素,在特征向量大小不变的前提下学习到更多的高 2 仿真实验与结果
维特征。此处采用 sigmoid 激活函数,sigmoid 激活
函数将数据映射到[0,1] 之间,表示该处数据对重构 本文基于课题组自建的骨导语声数据集,选取
输出数据的权重。 了几种目前主流的方法进行对比实验,实验设置与
以图 4 为例,注意力模块的计算过程如下所述, 实验结果在本节中详细阐述。
在当前解码层 Decoder_i,前一解码层的输出 y i−1
2.1 数据集和评价指标
上采样得到 u i ,u i 与对应编码层的隐层状态 x i 作
为注意力模块的输入,两者分别进行 1 ∗ 1 卷积操 本文选取了文献[31]中的骨导语声语料库作为
作 φ(·) 得到 φ (u i ) 和 φ (x i ) 后相加并进行 ReLU 激 训练数据。数据库中有利用喉震式传声器采集的
活,最后再次通过一个 1 ∗ 1 卷积 φ(·) 和 sigmoid 激 骨导语声与对应的气导语声,每条语声的时长为
活 σ(·),得到注意力当前解码层的注意力权重矩阵 3∼5 s 不等,语声采样率为 32 kHz,16 bit 量化。选
α i ,对应编码层的隐层状态 x i 与注意力权重矩阵 取了男 1、男 2,女 1、女 2 各 200 条语声作为数据集,
α i 相乘后,通过跳跃连接与 u i 拼接得到多尺度特 对每个人分别进行实验,实验数据分为训练集、验
征m i ,解码器对其进行解码重构。该过程公式表述 证集和测试集。随机选取单人 140 条语声作为训练
如下: 集,30条语声作为验证集,30条语声作为测试集。在
不同模型上测试增强性能。
u i = Upsample (y i−1 ), (5)
感知语声质量评估 (Perceptual evaluation of
α i = σ (φ (ReLu (φ (u i ) + φ (x i )))) , (6)
speech quality, PESQ) [32] 、短时客观可懂度(Short-
m i = [x i · · · α i |u i ], (7) [33]
time objective intelligibility, STOI) 、对数谱距
其中,Upsample 为上采样操作,[α|β] 为矩阵拼接操 离 (Log spectral distance, LSD) [34] 是评价语声质
作,表示将α 与β 按第一维进行拼接。 量最常用且具有代表性的客观评价指标。PESQ
通过以上的建模,引入注意力机制能使编解码 能预测待测语声的平均主观意见分 (Mean opinion
器在预测不同位置输出时对输入的不同位置赋予 score, MOS),PESQ将待测语声和原始语声滤波变
不同的权重,提高对重要信息的捕捉能力,对于长序 换后,综合待测语声与原始语声的时频特性,给出
列输入数据效果尤为明显。 一个在 [−0.5, 4.5] 区间的 PESQ 得分,语声质量与
1.4 算法流程 PESQ 得分成正比。STOI 是衡量语声的重要指标
算法流程有3个主要步骤: 之一,对于语声来说,只有听懂和听不懂两种情况,
(1) 在数据预处理阶段,首先将骨导语声 x(n) 可以理解为在短时内可懂度是二值的,其范围在
和气导语声 y(n) 的波形归一化到 [−1, 1],而后分别 [0, 1]之间,越接近 1质量越好。STOI是将待测语声
进行分帧加窗、短时傅里叶变换,对语声幅度谱取 和原始语声经过移除静音区、STFT变换、归一化后
对数得到对数幅度谱并计算其均值方差,进行均值 计算短时谱向量的相关系数得到的。LSD衡量待测
方差归一化完成数据预处理。 语声对数谱与原始语声对数谱之间的距离,LSD 的
(2) 在模型训练阶段,首先初始化模型参数 θ n , 值越小,说明待测语声越接近于原始语声,增强质量
将骨导语声训练数据输入模型得到估计值,以网络 就越高。