Page 84 - 《应用声学》2023年第2期
P. 84
272 2023 年 3 月
分和虚数部分,隐层节点数已在表1中给出。教师模 计算距离损失并叠加形成总的距离损失L distance :
型和学生模型的主要差异在于卷积层的通道数,注 ∑ ∑ ∑ [ ( ) 2
L
T
F
L distance = O tea real − O stu real
意到教师模型和学生模型在复 LSTM 模块具有相 l,t,f l,t,f
l=1 t=1 f=1
同的隐层节点数,这建立了教师和学生模型间的沟 ( tea imag stu imag ) ]
2
通,使得知识的转移能够通过拉近师生特征距离来 + O l,t,f − O l,t,f , (9)
实现。教师模型总计具有2.8 M的参数,而学生模型 其中,O stu real 和 O stu imag 表示学生模型实部和虚
l,t,f
l,t,f
仅有0.23 M的参数,为教师模型的8.2%。 部的输出,O tea real 和 O tea real 表示教师模型实部
l,t,f l,t,f
和虚部的输出,L 为复 LSTM 模块总数,T 为输入语
表 1 师生模型的超参数设置
声总帧数,F 为特征维度。对每一帧的输出单独处
Table 1 Hyperparameter settings for
理而不预先进行压平,因为希望每一帧的数据对于
teacher and student models
知识转移有独特的贡献。最终师生学习通过原模型
超参数 损失和师生距离损失的联合优化进行。
层名称
学生模型 教师模型
Conv_1 2×5, (1,2), 8 2×5, (1,2), 32 2 实验设置
Conv_2 2×5, (1,2), 16 2×5, (1,2), 64
Conv_3 2×5, (1,2), 32 2×5, (1,2), 128 2.1 实验数据
Conv_4 2×5, (1,2), 64 2×5, (1,2), 256 本文分别选择在小型公开数据集 Voice Bank
Conv_5 2×5, (1,2), 64 2×5, (1,2), 256 Demand [10] 和大型公开数据集 DNS Challenge [11]
Conv_6 2×5, (1,2), 64 2×5, (1,2), 256
上进行对比实验。
LSTM_1(×2) 64 64
在Voice Bank Demand 数据集中,干净的语声
LSTM_2(×2) 64 64
数据来自 Voice Bank 语料库中的 30 名说话人,其
Deconv_1 2×5, (1,2), 64 2×5, (1,2), 256
中 28 人包含在训练集中,2 人包含在测试集中。每
Deconv_2 2×5, (1,2), 64 2×5, (1,2), 256
Deconv_3 2×5, (1,2), 32 2×5, (1,2), 128 个说话人提供约 400 句话。对于训练集,将 10 种噪
Deconv_4 2×5, (1,2), 16 2×5, (1,2), 64 声 (babble、cafeteria、car、kitchen、meeting、metro、
Deconv_5 2×5, (1,2), 8 2×5, (1,2), 32 restaurant、ssn、station、traffic) 随机与干净语声
Deconv_6 2×5, (1,2), 2 2×5, (1,2), 2
剪辑在 4 种信噪比 (15 dB、10 dB、5 dB 和 0 dB)
下叠加生成 11572 条带噪 -干净语声对。因此,总
在预训练教师模型后,让学生模型模仿教师的
共考虑了 40 种不同的噪声条件。而测试集的建立
输出。师生学习的过程通过在学生模型原损失的基
则使用了 Demand 数据库中剩余的 5 种噪声 (bus、
础上附加师生距离损失实现,学生模型的损失 L stu
cafe、living、psquare、office) 和 4 种不同的信噪比设
为
置 (17.5 dB,12.5 dB,7.5 dB 和 2.5 dB),这使得测
L stu = L MRSTFT + βL distance , (8) 试集共有 20 种不同的组合。注意到,由于测试集和
其 中, L MRSTFT 是 原 模 型 的 MRSTFT 损 失, 训练集使用了不同的说话人和噪声环境,二者是互
L distance 是教师和学生模型输出差异的测度。这 不交叉的。
里 β > 0 为用于衡量两种损失的权重参数,本文中 DNS Challenge 数据集包含来自 2150 个说话
设置为 1。师生学习的位置设置在编码器和解码器 人的500 h干净语料和总计约180 h的65000条噪声
中间的复 LSTM模块。由于 DCCRN模型本身的对 剪辑。随机切分语料库成训练集和验证集各 60000
称性,在靠近中部的高层次特征具有从靠近两端的 条和 1000 条语声。训练集和验证集中的带噪语声
低层次特征中学习有效信息的能力。并且复 LSTM 是通过从语声集和噪声集中随机选择片段,并在
模块的参数量占总体的 30%,承担了语声帧间相关 −5 ∼ 15 dB 之间的随机信噪比下进行混合来生成
性的分析任务,因此在该处实施知识转移能够更好 的。总计使用了100 h的语声数据用于训练和验证。
地传递有效信息。由于复LSTM模块的计算分为实 测试集使用 DNS Challenge 官方提供的无混响测
部和虚部两个流向,因此对实部和虚部的输出分别 试集进行客观评分的比较。