Page 158 - 《应用声学》2022年第4期
P. 158
656 2022 年 7 月
RNN) 利用自身的循环网络结构能够建立当前时刻
1 信号模型
输入特征与历史输入特征之间的联系,更适用于映
射语声相关特征。但是 RNN 在前向传播过程中信
考虑单通道加性噪声信号模型。y(n)表示传声
息冗余过多,网络计算复杂,容易产生梯度消失和梯
器拾取带噪信号,x(n) 表示干净语声信号,d(n) 表
度爆炸现象 [22] 。LSTM 在RNN 结构基础上引入了
示加性噪声信号,与x(n)不相关,n表示采样点,则:
一个记忆单元结构和一系列的门函数,能够有效控
y(n) = x(n) + d(n), (1)
制历史信息在当前时刻的流入和流出,在一定程度
语声增强的目的就是从带噪语声 y(n) 中恢复出干 上解决了梯度消失和梯度爆炸问题。单个 LSTM模
净语声 x(n)。对式 (1) 两边同时进行短时傅里叶变 块包括一个记忆单元和 3个门函数:输入门、遗忘门
换(Short-time Fourier transform, STFT),可得 和输出门,计算过程如下所示:
Y (k, l) = X(k, l) + D(k, l), (2) i l = σ (W xi x l + W hi h l−1 + b i ) , (4)
其中,k 表示频率分量,l 表示帧分量。Y (k, l)、 f l = σ (W xf x l + W hf h l−1 + b f ) , (5)
X(k, l) 和 D(k, l) 分 别 表 示 y(n)、 x(n) 和 d(n) 的 c l = f l ⊗ c l−1
STFT变换。 + i l ⊗ tanh (W xc x l + W hc h l−1 + b c ) , (6)
定 义 第 l 帧 第 k 个 时 频 分 量 处 的 幅 度 谱 估
o l = σ (W xo x l + W ho h l−1 + b o ) , (7)
ˆ
计 误 差 为 d(|X(k, l)|, |X(k, l)|), 其 中 |X(k, l)| 代
ˆ
h l = σ (o l ⊗ tanh (c l )) , (8)
表估计 的干净 语 声 ˆx(n) 的 STFT 幅度谱。 在下
ˆ
文中, 为方便表述, 使用 {Y k , D k , X k , X k } 代替 其中,l 代表帧分量,σ 代表 sigmoid 函数,tanh 代表
ˆ
{|Y (k, l)|, |D(k, l)|, |X(k, l)|, |X(k, l)|} 分别表示带 双曲正切函数;x l 、c l 和h l 分别表示第l 帧的网络输
噪语声 y(n)、噪声 d(n)、干净语声 x(n) 和估计干净 入、记忆单元和隐状态;W 和 b 分别表示权重和偏
语声 ˆx(n)的STFT幅度谱。则贝叶斯风险R B ,即估 置;i l 、f l 和 o l 分别表示输入门、遗忘门和输出门。
ˆ
计误差期望E[d(X k , X k )],可表示为 当前帧输入特征通过隐状态 h l−1 和记忆单元 c l−1
[ ] 建立与过去时刻输入特征之间的联系。
ˆ
R B = E d(X k , X k )
本文利用 LSTM 网络对不同代价函数的性能
∫ ∫
ˆ
= d(X k , X k )p (X k , Y (k, l)) dX k dY (k, l) 进行分析。图1 展示了基于 LSTM 的单通道语声增
∫ [∫ ] 强算法框图。网络输入特征是带噪语声 y(n) 的对
ˆ
= d(X k , X k )p (X k |Y (k, l)) dX k
数谱 (Log-power spectra, LPS),即 log Y 。掩蔽函
2
k
× p (Y (k, l)) dY (k, l) . (3) 数映射和谱映射是基于深度学习的单通道语声增
强算法最常用的两类映射方法。掩蔽函数是由计
对于一个给定的代价函数,比如 MSE 代价函
算听觉场景分析概念所延伸出的一类计算目标,如
ˆ
ˆ
2
数,即 d(X k , X k ) = (X k − X k ) ,式 (3) 中的贝叶斯
理想二值掩蔽(Ideal binary mask, IBM)、理想浮值
ˆ
估计可以通过固定 Y (k, l),最小化关于 X k 的内部
掩蔽 (Ideal ratio mask, IRM) 等。谱映射网络的学
积分得到 [19] 。
习目标通常是干净语声的谱特征,如幅度谱或对数
2 算法原理 谱,无需干净语声与噪声之间相互独立的假设。但
是基于谱映射的算法容易在估计的干净语声谱特
2.1 深度学习单通道语声增强算法框架 征上映射出非语声成分,产生人工噪声。Weninger
FCN是深度学习算法中最常见的网络结构,它 等 [23] 提出了一种信号近似 (Signal approximation,
的输入特征相互独立,没有建立当前输入与历史 SA) 映射方法,将网络输出值限定在 [0, 1] 之间,然
信息之间的联系。语声信号有明显的时序特征,当 后将网络输出与带噪语声幅度谱相乘,得到干净语
前时刻的语声信息与过去时刻的语声信息具有密 声幅度谱的估计,网络的训练目标是真实的干净语
切联系。循环神经网络 (Recurrent neural network, 声幅度谱。这种方法结合了掩蔽函数映射方法和谱