Page 83 - 《应用声学》2023年第2期
P. 83
第 42 卷 第 2 期 卞金洪等: 深度复卷积递归网络模型的师生学习语声增强方法 271
√
1.1 复卷积递归网络结构 M mag = M + M ,
f2
f2
f
r
i
本文所提出的师生语声增强模型的基线模型 (3)
( )
M phase = arctan M i , M r ,
选用文献 [9] 中的 DCCRN 模型,其采用对称式设 f f f
计的卷积编码器 -解码器 (Convolutional encoder- 其中,M mag 表示估计的干净语声幅度谱,M phase 表
f
f
decoder, CED) 结构,在编码器和解码器中间插入 示估计的相位谱,arctan表示反正切函数。继而,可
LSTM 层用于建模时间依赖关系。具体地说,编码 以通过预测的复掩蔽还原干净语声频谱S:
˜
器有6个正向Conv2d卷积块组成,旨在逐步从输入 M phase)
˜
S = Y mag · M mag · e j(Y phase + f . (4)
f
特征中提取高级特征并降低分辨率。而解码器则具
有与编码器对称的 6个反向Conv2d块,其设置是为 1.2 MRSTFT损失
了将低分辨率特征重构为输入的原始大小。而中间 本文使用频谱图量级上的多分辨率损失 [8] 作
的 LSTM 层承担了捕获语声特征长时相关性的任 为整体网络的损失函数。假定 y 和 ˆy 分别代表干净
务,并维持了整个框架的因果性。编码器和解码器 语声信号和增强语声信号,那么单一尺度的 STFT
的 Conv2d 模块由卷积层/反卷积层构成,并后接批 谱尺度损失 L stft (y, ˆy) 可以定义为谱收敛 (spectral
归一化层和激活函数。编码器和解码器的对应层设 convergence, sc) 损失和幅度谱 (magnitude, mag)
置跳过连接以促进梯度的流动。 损失的叠加:
与一般的CED结构不同,DCCRN模型将所有 L stft (y, ˆy) = L sc (y, ˆy) + L mag (y, ˆy) , (5)
的卷积层、批归一化层和 LSTM 层均重构为模拟复 其中,谱收敛损失和幅度谱损失分别定义为
数运算的形式,因此其处理复频谱的特征更为有 ∥|STFT (y)| − |STFT (ˆy)|∥
L sc (y, ˆy) = F ,
利。复卷积模块包含复数Conv2d块、复批归一化层 ∥|STFT (y)|∥ F
和实值 PReLU 激活函数。复Conv2d 块由 4 个传统 1
L mag (y, ˆy) = ∥lg |STFT (y)| − lg |STFT (ˆy)|∥ ,
1
Conv2d 块联合计算构成。假设复数卷积滤波器 W N
(6)
定义为W r + jW i ,其中实值矩阵W r 和W i 分别表示
其中,∥ · ∥ F 和 ∥ · ∥ 1 分别表示 Frobenius 和 L 1 规范
复卷积核的实部和虚部。因此复卷积层的输出特征
化,|STFT(·)| 和 N 分别是 STFT 幅度谱和其中的
F out 由复数信息流和复卷积滤波器的模拟卷积运
元素数量。而MRSTFT损失 L MRSTFT 则是具有不
算得出:
同分析参数 (即快速傅里叶变换大小、窗长和帧移)
F out = (X r ∗ W r − X i ∗ W i )
的单尺度STFT损失的叠加:
+ j (X r ∗ W i + X i ∗ W r ) . (1) 1 ∑ (m)
M
L MRSTFT = L (y, ˆy), (7)
类似的,给定输入特征图的实部 X r 和虚部 X i , M STFT
m=1
复数LSTM层的计算过程为 其中,M 是不同分析参数的频谱损失数目,每
F rr = LSTM r (X r ) , F ir = LSTM r (X i ) , 个 L (m) 应用不同尺度的快速傅里叶变换大小、
STFT
F ri = LSTM i (X r ) , F ii = LSTM i (X i ) , 窗 长 和 帧 移。 其 中 快 速 傅 里 叶 变 换 大 小 取 自
{512, 1024, 2048},窗长取自 {240, 600, 1200},帧
F out = (F rr − F ii ) + j (F ri − F ir ) , (2)
移取自{50, 120, 240}。
其中,F rr 、F ir 、F ri 、F ii 表示模拟复数运算的交叉计
算中间量。一个复数 LSTM 模块包含两个传统的 1.3 用于知识转移的师生学习方法损失
LSTM 层 LSTM r 和 LSTM i ,分别表征实部和虚部 师生学习是一种有效的知识转移方法,首先预
部分。 训练大规模的教师网络,然后通过师生学习教导小
DCCRN模型的输入特征为语声 STFT后的复 规模的学生模型做出与教师网络相同的推断。本
频谱,而训练目标则为极坐标下的复掩蔽。假设原带 文基于 DCCRN 模型实施了师生学习方法,表 1 中
噪语声的频谱极坐标形式为 Y = Y mag · e jY phase ,而 展示了教师模型和学生模型的超参数设置。其中
通过DCCRN模型预测的复掩蔽为 M = M r + jM i , 卷积层参数从左到右依次是卷积核大小 (时间维度
f
f
f
其中M r 和M i 分别表示复掩蔽的实部和虚部。则可 × 频率维度)、卷积步长 (stride) 和通道数。每个复
f
f
以重建极坐标形式下的复掩蔽为 LSTM 层具有两个传统 LSTM 层,分别对应实数部