Page 84 - 《应用声学》2023年第2期
P. 84

272                                                                                  2023 年 3 月


             分和虚数部分,隐层节点数已在表1中给出。教师模                           计算距离损失并叠加形成总的距离损失L distance :
             型和学生模型的主要差异在于卷积层的通道数,注                                        ∑ ∑ ∑ [     (                 ) 2
                                                                            L
                                                                                T
                                                                                   F
                                                                 L distance =           O tea real  − O stu real
             意到教师模型和学生模型在复 LSTM 模块具有相                                                    l,t,f     l,t,f
                                                                            l=1 t=1 f=1
             同的隐层节点数,这建立了教师和学生模型间的沟                                           (  tea imag  stu imag  ) ]
                                                                                                   2
             通,使得知识的转移能够通过拉近师生特征距离来                                         + O l,t,f   − O l,t,f    ,    (9)
             实现。教师模型总计具有2.8 M的参数,而学生模型                         其中,O   stu real  和 O stu imag  表示学生模型实部和虚
                                                                      l,t,f
                                                                                l,t,f
             仅有0.23 M的参数,为教师模型的8.2%。                           部的输出,O      tea real  和 O tea real  表示教师模型实部
                                                                           l,t,f     l,t,f
                                                               和虚部的输出,L 为复 LSTM 模块总数,T 为输入语
                       表 1   师生模型的超参数设置
                                                               声总帧数,F 为特征维度。对每一帧的输出单独处
                Table 1    Hyperparameter settings for
                                                               理而不预先进行压平,因为希望每一帧的数据对于
                teacher and student models
                                                               知识转移有独特的贡献。最终师生学习通过原模型
                                        超参数                    损失和师生距离损失的联合优化进行。
                   层名称
                                学生模型           教师模型
                   Conv_1      2×5, (1,2), 8  2×5, (1,2), 32   2 实验设置
                   Conv_2     2×5, (1,2), 16  2×5, (1,2), 64
                   Conv_3     2×5, (1,2), 32  2×5, (1,2), 128  2.1  实验数据
                   Conv_4     2×5, (1,2), 64  2×5, (1,2), 256      本文分别选择在小型公开数据集 Voice Bank
                   Conv_5     2×5, (1,2), 64  2×5, (1,2), 256  Demand  [10]  和大型公开数据集 DNS Challenge       [11]
                   Conv_6     2×5, (1,2), 64  2×5, (1,2), 256
                                                               上进行对比实验。
                LSTM_1(×2)         64            64
                                                                   在Voice Bank Demand 数据集中,干净的语声
                LSTM_2(×2)         64            64
                                                               数据来自 Voice Bank 语料库中的 30 名说话人,其
                  Deconv_1    2×5, (1,2), 64  2×5, (1,2), 256
                                                               中 28 人包含在训练集中,2 人包含在测试集中。每
                  Deconv_2    2×5, (1,2), 64  2×5, (1,2), 256
                  Deconv_3    2×5, (1,2), 32  2×5, (1,2), 128  个说话人提供约 400 句话。对于训练集,将 10 种噪
                  Deconv_4    2×5, (1,2), 16  2×5, (1,2), 64   声 (babble、cafeteria、car、kitchen、meeting、metro、
                  Deconv_5     2×5, (1,2), 8  2×5, (1,2), 32   restaurant、ssn、station、traffic) 随机与干净语声
                  Deconv_6     2×5, (1,2), 2  2×5, (1,2), 2
                                                               剪辑在 4 种信噪比 (15 dB、10 dB、5 dB 和 0 dB)
                                                               下叠加生成 11572 条带噪 -干净语声对。因此,总
                 在预训练教师模型后,让学生模型模仿教师的
                                                               共考虑了 40 种不同的噪声条件。而测试集的建立
             输出。师生学习的过程通过在学生模型原损失的基
                                                               则使用了 Demand 数据库中剩余的 5 种噪声 (bus、
             础上附加师生距离损失实现,学生模型的损失 L stu
                                                               cafe、living、psquare、office) 和 4 种不同的信噪比设
             为
                                                               置 (17.5 dB,12.5 dB,7.5 dB 和 2.5 dB),这使得测
                      L stu = L MRSTFT + βL distance ,  (8)    试集共有 20 种不同的组合。注意到,由于测试集和
             其 中, L MRSTFT 是 原 模 型 的 MRSTFT 损 失,               训练集使用了不同的说话人和噪声环境,二者是互
             L distance 是教师和学生模型输出差异的测度。这                      不交叉的。
             里 β > 0 为用于衡量两种损失的权重参数,本文中                            DNS Challenge 数据集包含来自 2150 个说话
             设置为 1。师生学习的位置设置在编码器和解码器                           人的500 h干净语料和总计约180 h的65000条噪声
             中间的复 LSTM模块。由于 DCCRN模型本身的对                        剪辑。随机切分语料库成训练集和验证集各 60000
             称性,在靠近中部的高层次特征具有从靠近两端的                            条和 1000 条语声。训练集和验证集中的带噪语声
             低层次特征中学习有效信息的能力。并且复 LSTM                          是通过从语声集和噪声集中随机选择片段,并在
             模块的参数量占总体的 30%,承担了语声帧间相关                          −5 ∼ 15 dB 之间的随机信噪比下进行混合来生成
             性的分析任务,因此在该处实施知识转移能够更好                            的。总计使用了100 h的语声数据用于训练和验证。
             地传递有效信息。由于复LSTM模块的计算分为实                           测试集使用 DNS Challenge 官方提供的无混响测
             部和虚部两个流向,因此对实部和虚部的输出分别                            试集进行客观评分的比较。
   79   80   81   82   83   84   85   86   87   88   89