Page 216 - 《应用声学》2023年第3期
P. 216
654 2023 年 5 月
帧的语声信号特征信息。由此可知,当对第t帧带噪 图 1 的 GRU 是 对 LSTM 网 络 的 简 化 设 计。
语声增强时,神经网络的输入可表示为 GRU网络单元的前向传播可由式(5)表示:
z t = σ(W z x t + U z h t−1 + b z ),
Y 1,n−t+1 · · · Y 1,t
. . .
φ t = . . . . . , (1) r t = σ(W r x t + U r h t−1 + b r ),
(5)
.
a t = tanh(W a U a (h t − 1 ⊙ r t ) + b a ),
Y k,n−t+1 · · · Y k,t
式(1)中,t、k 分别表示第t帧、第k 个频点,n为连续 h t = (1 − z t ) ⊙ h h−1 + z t ⊙ a t ,
帧的数量即网络输入的窗长;φ t 表示多帧带噪语声 式 (5) 中,Z t 、r t 、h t 分别表示更新门、重置门以
拼接后的特征,用于对第 t 帧中纯净语声成分的估 及网络单元的输出。其中 ⊙ 为 Hadmard 乘积,σ 为
计。本文采用非负幅度谱 [22] 特征作为网络的输入 Sigmoid激活函数。
特征,计算方法可以由(2)表示:
h t֓ h t
Z (k,t,n) = ln(φ t + 1), (2)
1-
式 (2) 中,n = 1, 2, · · · , N,N 表示拼接的帧数数量,
~
即网络输入的窗长;Z (k,t,n) 表示非负幅度谱特征。 r t z t h t
σ σ tanh
基于深度学习的语声增强方法利用了神经网络强
大的复杂映射能力,实现将带噪语声到纯净语声的 x t
复杂映射。神经网络可以表示为复杂函数f x (x),如 图 1 GRU 单元
式(3)所示: Fig. 1 GRU unit
ˆ
S (k,t) = f x (Z (k,t,n) ), (3) 2.2 LCGRU
传统的门控循环神经网络 (GRU, LSTM) 能够
式 (3) 中,带噪语声到纯净语声的复杂映射关系由
ˆ
函数f x (x)表示。S (k,t) 表示估计的第 t帧、第k 个频 有效建模语声信号的长期依赖关系。但是其全连
接的网络结构忽略了语声信号的时频结构特征,
点的纯净语声特征。在网络的训练过程中,本文采
导致语声增强性能下降。对此,本文设计了一种
用平均绝对误差 (Mean absolute error, MAE) 作为
LCGRU,采用卷积核替代GRU传统的全连接结构。
损失函数,如式(4)所示:
LCGRU网络在对语声信号的时间相关性建模的同
M
1 ∑ 时保留了语声信号的时频结构特征,降低了网络参
MAE = ||f x (Z (k,t,n) ) − T i ||, (4)
M
i=1 数的数量。针对在深度学习因果式的语声增强方法
式(4)中,M 表示批量大小,本文设置为128;T i 表示 中,由于采用了因果式的网络输入 (N + 1 帧),语声
标签数据 (纯净语声的非负幅度谱特征),即纯净语 增强性能下降的问题,LCGRU 网络为充分利用先
声的特征向量。通过多次训练计算损失函数值,经 前帧 (N 帧) 的语声信号特征,网络单元当前时刻的
过反向传播调整网络权重,最终获得泛化能力较好 网络输入融合了上一时刻的网络输入 x t−1 与输出
的网络模型实现语声增强。 h t−1 ,这充分利用了语声信号的先前 N 帧的特征信
息,极大地提高了网络的语声增强性能。为了缓解
2 门控循环神经单元 网络训练过程中的过拟合问题,本文采用了线性门
控机制 (Gated linear unit, GLU) [27] 控制信息的传
2.1 GRU 输。图2为本文设计的LCGRU。
传统的循环神经网络能够建模时间相关序列, 图 2 为 LCGRU 网络的前向传播示意图,图中
但是容易出现梯度消失的问题,导致模型无法训练, x t−1 、h t−1 、x t 分别代表上一时刻的输入、上一时刻
˜
对此有学者提出了 GRU,缓解了网络梯度消失,同 的输出以及当前时刻的输入。f t 、h t 分别表示遗忘
时能够建模时间序列的长期依赖关系。图 1 为常用 门与候选隐藏状态。在 LCGRU 网络单元中,首先
的GRU模型。 计算输入特征的带权特征向量: