Page 82 - 《应用声学》2023年第2期

P. 82

270 2023 年 3 月

度的参数，仅保留信息量最大、最重要的参数。同
0 引言
时对剩余的参数进行一定的微调以保证一致性 [5] 。
另一类有效的模型压缩方法是网络量化 (Network
语声增强的研究旨在消除背景噪声，提高语声
quantization)，其通过减少表示每个权重所需的位
的质量和可懂度。自20世纪50年代以来，语声增强
数来压缩原始网络 [6] 。而本文主要关注知识蒸馏
算法已经吸引了国内外众多学者的关注 [1−2] 。语声
的方法，其核心思想是将知识从大型教师模型传
增强方法在改善人类或机器对语声的理解方面有
递给小型学生模型 [7] 。师生学习多应用于分类任
重要的作用，包括助听器、语声通信和自动语声识别
务，在语声增强这样的回归任务上的相关工作并
等任务。本文主要关注单通道的语声增强方法。传
不多见。本文提出了一种用于语声增强模型的师
统的语声增强方法通常基于统计信号处理理论，对
生学习方法，通过拉近师生模型输出的距离，将
带噪语声应用频带抑制增益或滤波器。但这类方法
大规模教师模型的有效信息传递给学生模型。同
往往基于很多经验性的假设，并且难以应对非平稳
时，使用多分辨率频谱(Multi-resolution short-time
的噪声 [3] 。
Fourier transform, MRSTFT) 损失 [8] 代替原深度
得益于深度学习的发展，语声增强任务被定义
复卷积递归网络(Deep complex convolution recur-
为一个有监督的学习问题。这种数据驱动的方法
rent network, DCCRN) 模型使用的尺度不变信噪
渐渐成为主流，因为它能够从海量的带噪和干净语
比(Scale-invariant source-to-noise ratio, SISNR)损
声对挖掘有效信息，从而学到强大的噪声抑制能力
失，进一步提升低复杂度学生模型的效果。
(特别是对于非平稳噪声)。众多基于深度学习的模
型已经在单通道的语声增强任务报告了优良的性
1 基于师生学习的语声增强模型框架
能。但若想取得理想的性能，一般需要一个较大规
模的深度神经网络(Deep neural network, DNN)模本文提出一种用于语声增强的师生学习框架，
型，这也就意味着耗费大量的计算资源和存储空间。以 DCCRN [9] 作为基线模型进行设计，整体结构如
因此，在对延迟敏感的应用程序或资源有限的设备图1所示。
(比如耳机、助听器) 上部署此类语声增强算法将会本文所采用的师生模型均具有对称式的编码
遇到困难。为了实现基于深度学习的语声增强模型器和解码器结构，而中间设置复数长短期记忆
的落地部署，有必要研究如何降低模型的存储和计 (Long short-term memory, LSTM) 层。对于基础
算量。模型，输入特征选取短时傅里叶变换 (Short-time
目前主流的模型压缩方法，比如剪枝、量化和 Fourier transform, STFT)后的复频谱，而将网络的
知识蒸馏，均在降低模型的复杂度方面有一定成输出应用 MRSTFT 损失以引导优化。师生学习的
效 [4] 。第一类是网络剪枝方法 (Network pruning)，位置设置在中间的复 LSTM 层，分别提取教师和学
这类方法通过一定的策略选择并删除具有高冗余生的实部和虚部特征流以计算师生距离损失。

ܭԄሥᎄᆊ٨ ܭԄሥᝍᆊ٨

ܭ஝
LSTM
ࠄᦊ ᘿᦊ
MRSTFT
ܭᮠ៨ ࣎ၷᡰሏ૯ܿ ૯ܿ
ࠄᦊ ᘿᦊ

ܭ஝
LSTM

图 1 基于 DCCRN 模型的师生学习框架
Fig. 1 A framework for teacher-student learning based on the DCCRN model

77 78 79 80 81 82 83 84 85 86 87