Page 83 - 《应用声学》2023年第2期
P. 83

第 42 卷 第 2 期          卞金洪等: 深度复卷积递归网络模型的师生学习语声增强方法                                          271

                                                                                 √
                                                                       
             1.1 复卷积递归网络结构                                             M mag =    M + M ,
                                                                                         f2
                                                                                    f2
                                                                       f
                                                                                     r
                                                                                           i
                 本文所提出的师生语声增强模型的基线模型                                                                      (3)
                                                                                       (       )
                                                                         M phase = arctan M i , M r ,
             选用文献 [9] 中的 DCCRN 模型,其采用对称式设                               f                f f
             计的卷积编码器 -解码器 (Convolutional encoder-              其中,M mag 表示估计的干净语声幅度谱,M phase 表
                                                                                                     f
                                                                     f
             decoder, CED) 结构,在编码器和解码器中间插入                     示估计的相位谱,arctan表示反正切函数。继而,可
             LSTM 层用于建模时间依赖关系。具体地说,编码                          以通过预测的复掩蔽还原干净语声频谱S:
                                                                                                   ˜
             器有6个正向Conv2d卷积块组成,旨在逐步从输入                                                         M phase)
                                                                       ˜
                                                                      S = Y mag · M mag · e j(Y phase + f  .  (4)
                                                                                 f
             特征中提取高级特征并降低分辨率。而解码器则具
             有与编码器对称的 6个反向Conv2d块,其设置是为                        1.2  MRSTFT损失
             了将低分辨率特征重构为输入的原始大小。而中间                                本文使用频谱图量级上的多分辨率损失                     [8]  作
             的 LSTM 层承担了捕获语声特征长时相关性的任                          为整体网络的损失函数。假定 y 和 ˆy 分别代表干净
             务,并维持了整个框架的因果性。编码器和解码器                            语声信号和增强语声信号,那么单一尺度的 STFT
             的 Conv2d 模块由卷积层/反卷积层构成,并后接批                       谱尺度损失 L stft (y, ˆy) 可以定义为谱收敛 (spectral
             归一化层和激活函数。编码器和解码器的对应层设                            convergence, sc) 损失和幅度谱 (magnitude, mag)
             置跳过连接以促进梯度的流动。                                    损失的叠加:
                 与一般的CED结构不同,DCCRN模型将所有                              L stft (y, ˆy) = L sc (y, ˆy) + L mag (y, ˆy) ,  (5)
             的卷积层、批归一化层和 LSTM 层均重构为模拟复                         其中,谱收敛损失和幅度谱损失分别定义为
             数运算的形式,因此其处理复频谱的特征更为有                                         ∥|STFT (y)| − |STFT (ˆy)|∥
                                                                L sc (y, ˆy) =                     F  ,
             利。复卷积模块包含复数Conv2d块、复批归一化层                                           ∥|STFT (y)|∥ F
             和实值 PReLU 激活函数。复Conv2d 块由 4 个传统                                1
                                                               L mag (y, ˆy) =  ∥lg |STFT (y)| − lg |STFT (ˆy)|∥ ,
                                                                                                           1
             Conv2d 块联合计算构成。假设复数卷积滤波器 W                                     N
                                                                                                          (6)
             定义为W r + jW i ,其中实值矩阵W r 和W i 分别表示
                                                               其中,∥ · ∥ F 和 ∥ · ∥ 1 分别表示 Frobenius 和 L 1 规范
             复卷积核的实部和虚部。因此复卷积层的输出特征
                                                               化,|STFT(·)| 和 N 分别是 STFT 幅度谱和其中的
             F out 由复数信息流和复卷积滤波器的模拟卷积运
                                                               元素数量。而MRSTFT损失 L MRSTFT 则是具有不
             算得出:
                                                               同分析参数 (即快速傅里叶变换大小、窗长和帧移)
                     F out = (X r ∗ W r − X i ∗ W i )
                                                               的单尺度STFT损失的叠加:
                            + j (X r ∗ W i + X i ∗ W r ) .  (1)                    1  ∑    (m)
                                                                                      M
                                                                       L MRSTFT =        L      (y, ˆy),  (7)
                 类似的,给定输入特征图的实部 X r 和虚部 X i ,                                      M       STFT
                                                                                     m=1
             复数LSTM层的计算过程为                                     其中,M 是不同分析参数的频谱损失数目,每
                 F rr = LSTM r (X r ) , F ir = LSTM r (X i ) ,  个 L (m)  应用不同尺度的快速傅里叶变换大小、
                                                                   STFT
                 F ri = LSTM i (X r ) , F ii = LSTM i (X i ) ,  窗 长 和 帧 移。 其 中 快 速 傅 里 叶 变 换 大 小 取 自
                                                               {512, 1024, 2048},窗长取自 {240, 600, 1200},帧
                 F out = (F rr − F ii ) + j (F ri − F ir ) ,  (2)
                                                               移取自{50, 120, 240}。
             其中,F rr 、F ir 、F ri 、F ii 表示模拟复数运算的交叉计
             算中间量。一个复数 LSTM 模块包含两个传统的                          1.3  用于知识转移的师生学习方法损失
             LSTM 层 LSTM r 和 LSTM i ,分别表征实部和虚部                     师生学习是一种有效的知识转移方法,首先预
             部分。                                               训练大规模的教师网络,然后通过师生学习教导小
                 DCCRN模型的输入特征为语声 STFT后的复                       规模的学生模型做出与教师网络相同的推断。本
             频谱,而训练目标则为极坐标下的复掩蔽。假设原带                           文基于 DCCRN 模型实施了师生学习方法,表 1 中
             噪语声的频谱极坐标形式为 Y = Y mag · e           jY phase ,而  展示了教师模型和学生模型的超参数设置。其中
             通过DCCRN模型预测的复掩蔽为 M = M r + jM i ,                 卷积层参数从左到右依次是卷积核大小 (时间维度
                                                  f
                                             f
                                                        f
             其中M r 和M i 分别表示复掩蔽的实部和虚部。则可                       × 频率维度)、卷积步长 (stride) 和通道数。每个复
                 f
                       f
             以重建极坐标形式下的复掩蔽为                                    LSTM 层具有两个传统 LSTM 层,分别对应实数部
   78   79   80   81   82   83   84   85   86   87   88