Page 9 - 《应用声学》2025年第3期
P. 9

第 44 卷 第 3 期              雷菁等: 无人机搜救场景下语声增强技术进展综述                                           543


                 无人机场景下基于深度学习的语声增强模型                           号的频谱特征进行处理,从而估计目标信号的频
             可以分为单通道和多通道两类。单通道的方法主                             谱或掩膜。2024 年,Chen 等        [30]  提出了一种频率域
             要是将一般场景下主流的单通道语声增强模型应                             瓶颈适配器,用于捕获无人机噪声的谐波特性,并
             用到无人机场景中。2019 年,Chun 等            [29]  提出了一      通过迁移学习来适应不同类型无人机的噪声。该
             种基于深度卷积去噪自编码器的无人机噪声抑制                             方法在 FRCRN     [31]  的编码器模块中嵌入适配器,通
             方法,训练后的模型能够有效减少无人机飞行的                             过微调适配器参数来适应不同类型无人机的噪声。
             自噪声和风噪。此后,Mukhutdinov 等             [17]  对时频     Premachandra 等  [32]  提出通过 GAN 生成伪无人机
             域、复数时频域以及时域的主流单通道增强模型进                            噪声,并从混合信号中减去生成的伪无人机噪声,实
             行对比研究,发现复数时频域的 UNet 综合性能最                         现噪声抑制。在抑制噪声后,使用 U-Net 架构来恢
             优,在 SNR = −15 dB 时,增强后的信号语声质量                     复目标语声,确保语声的完整性和质量。
             感知评估从 1.0 提升到 1.9。由于主流的单通道增强                          表 3 列出了上述方法的实验设置信息,其中训
             模型通常针对 SNR 在 −5 dB 以上的场景,将这些                      练集通过将语声数据集和噪声数据集混合得到,一
             模型直接应用到 SNR 极低的无人机场景会出现明                          般涵盖了不同 SNR 组合。这些组合的设计旨在模
             显的性能下降。因此,研究人员也提出了一些针对                            拟不同噪声环境下的实际应用场景,以提升算法在
             无人机场景下的语声增强方法。2019年,Tan等                   [18]   多种 SNR 条件下的表现。语声数据集合噪声数据
             提出 SMoLnet,使用一系列堆叠的卷积块对带噪信                        集的时长为训练集中使用的时长。


                                             表 3  基于深度学习的单通道增强方法
                             Table 3 Deep learning-based single-channel enhancement methods

                   研究机构              网络结构        估计目标     训练集 SNR    采样率    语声数据集        噪声数据集      训练集时长
               韩国土木工程与建筑
                                Denoise autoencoder  语声      —       16 kHz  自制 (4 h)     自制 (−)       —
                 技术研究所   [29]
               伦敦玛丽女王大学智能         VAE,DCUNet,
                                                  语声     −25 ∼ −5 dB  8 kHz  TIMIT (3.8 h) AVQ (11.7 min)  35 h
                感知研究中心    [17]      SEGAN 等
              新加坡南洋理工大学      [18]    SMoLnet      语声    −20 ∼ −10 dB 16 kHz WSJ0-SI84(−)  自制 (68 min)  7.9 h
                                                                                       AVQ,DREGON
               澳大利亚国立大学     [30]     FRCRN        语声     −25 ∼ −5 dB  16 kHz DNS-2022(−)               5 h
                                                                                         (12.6 min)
               东京芝浦理工学院     [32]      GAN         噪声         —       16 kHz    —        自制 (5 min)     —


                 多通道语声增强方法主要是将 DNN 与波束                         之外,也有一些方法考虑直接使用 DNN 来直接进
             形成结合,使用 DNN 来估计波束形成所需要的参                          行降噪。2016年,Morito等       [37]  提出了一种可以同时
             数。2018年,Yen等     [33]  将转子转速和加速度输入全               学习多个任务的 PS-DNN。PS-DNN 为包含两个子
             连接 DNN 来估计噪声功率谱密度 (Power spectral                 网络的全连接网络,一个子网络用于声源分离,另一
             density, PSD),该研究仅考虑了 PSD 的估计。之后                  个子网络用于声源识别。2019 年,Spadini 等              [38]  使
             Yen 等  [5,34]  使用了回归树和梯度提升随机森林技                   用 SEGAN 对多通道信号的每个通道进行降噪,然
             术,将无人机的非声学参数 (旋翼转速和加速度) 映                         后再使用logMMSE方法进行后滤波。
             射到旋翼噪声 PSD,进而计算最小方差无失真响应
             滤波的系数用于降噪。Wang 等             [35]  在之前工作   [15]   1.3  数据集
             的基础上,使用 DNN 估计目标信号的频谱掩膜,并                             表4展示了无人机场景下一些常用数据集的具
             对每个时频点估计 DOA,计算估计的 DOA 与已知                        体信息,其中 AVQ       [39] 、AIRA-UAS [40] 、DREGON [3]
             的目标方向的相似度,综合目标信号的频谱掩膜与                            均为多通道数据集,通常用于声源定位任务。这些
             相似度计算目标信号的协方差矩阵。Song 等                  [36]  使   数据集通常涵盖无人机在多种飞行状态下的噪声
             用 UNet 估计目标信号的频谱掩膜,并与波束形成                         信息。AIRA-UAS数据集详细记录了无人机在多种
             交替处理,对混合信号进行多个阶段的增强。除此                            飞行状态下的噪声特征。该数据集中的无人机状态
   4   5   6   7   8   9   10   11   12   13   14