Page 7 - 《应用声学》2025年第3期
P. 7

第 44 卷 第 3 期              雷菁等: 无人机搜救场景下语声增强技术进展综述                                           541


             与旋转速度相关。旋翼切割空气产生的噪声以及                             率也随之增加;在 7.5 ∼ 15 s 时,发动机旋转速度
             激流冲击传声器产生的风噪则为宽带噪声,均匀                             保持不变,窄带噪声相应的谐波频率也保持恒定;
             地分布在整个频谱上。图 2(a) 展示的是 DJ M300                     而在最后的 6 s 内,发动机旋转速度减小,窄带噪
             自噪声的频谱,图 2(b) 展示的是 3DR IRIS 自噪                    声谐波频率也随之下降。而宽带噪声在频谱上呈

             声的频谱,图 2(c) 则是目标语声信号和 3DR IRIS                    现较为均匀的分布,覆盖了较广的频率范围。在
             自噪声共同存在时的频谱。从图 2(a) 和图 2(b) 中                     图 2(c) 中,在 5 ∼ 15 s 之间,存在 SNR 为 −15 dB
             可以看到,不同型号无人机的自噪声中均包含着                             的目标语声。目标语声的信号在频谱上几乎被
             窄带噪声。在图 2(b) 和图 2(c) 中,前 7.5 s 时,发动               完全噪声成分淹没,给语声增强任务带来了巨大
             机旋转速度逐渐增大,窄带噪声的各个谐波的频                             的挑战。


                     4                   -30      4                   -30       4                   -30


                     3                            3                             3
                    ᮠဋ/kHz  2            -50     ᮠဋ/kHz  2            -50     ᮠဋ/kHz  2             -50




                     1                            1                             1


                     0                   -70      0                   -70       0                   -70
                      0   5  10  15  20            0   5   10  15  20            0  5   10  15  20
                             ௑ᫎ/s                         ௑ᫎ/s                         ௑ᫎ/s
                       (a) DJ M300ᒭ٪ܦ௑ᮠ៨           (b) 3DR IRISᒭ٪ܦ௑ᮠ៨ [15]     (c) 3DR IRISᒭ٪ܦ+ឦܦ௑ᮠ៨ [15]
                                          图 2  无人机自噪声频谱及自噪声与语声的频谱
                           Fig. 2 The spectrum of drone ego-noise and the spectrum of ego-noise and speech
             1.2 无人机场景下的语声增强研究进展                               语声活动性检测 (Voice activity detection, VAD),

             1.2.1 传统方法                                        对比了能量特征、频谱特征和混合特征的性能。该
                                                               研究证明基于带噪信号的频谱特征的 VAD 性能更
                 目前,传统的单通道降噪方法通常依赖于非声
                                                               优。表1展示了这些传统的单通道方法的实验设置。
             学参考信息来辅助噪声抑制。2015 年,Fernandes
                                                               表中研究均采用了四旋翼无人机。由于难以利用非
             等  [4]  通过使用自适应滤波器来估计无人机自噪声。
                                                               声学信息准确重构无人机自噪声且混合信号 SNR
             该方法使用螺旋桨附近的压电传感器获取的振动
                                                               较低,这些方法的降噪性能较差。
             信号作为自适应滤波器的输入,使用噪声与语声的
                                                                   相比于单通道的方法,多通道的方法能够进一
             混合信号作为期望信号。在算法收敛后,误差信号
                                                               步利用空间信息以提升降噪性能。表2 展示了传统
             近似等于目标语声信号。Yoon 等             [14]  采用同样的思
                                                               的多通道方法的实验设置。目前多通道的方法主要
             路估计目标语声,但自适应滤波器的输入信号不同。                           分为盲源分离和波束形成两类。盲源分离方法主
             该方法采集螺旋桨转速,根据当前转速和参考转速                            要利用目标信号和噪声的统计独立性来进行分离。

             的比值对预先获取的无人机自噪声进行变调,从而                            2017年,Nakadai等    [24]  提出了一种在线的鲁棒主成
             获取无人机的自噪声作为自适应滤波器的输入信                             分分析 (Online robust principal component analy-
             号。此外,也有研究人员尝试直接使用谱减法消除                            sis, ORPCA),将信号分解为低秩分量和稀疏分量,
             噪声。Alif Bin Abdul Qayyum等     [22]  对转子转速和        其中低秩分量为周期性噪声,稀疏分量为语声信号。
             噪声频率的关系进行建模,利用带通滤波器提取转                            之后,Wang 等    [25]  使用独立成分分析 (Independent
             速对应的噪声谐波,再使用谱减法消除无人机噪声。                           component analysis, ICA) 在每个频点上估计一个
             也有学者不使用额外的非声学信息,直接对混合信                            解混矩阵来分离目标信号和噪声,并依次使用基于
             号进行处理。Jaiswal      [23]  提取带噪信号的特征进行              参考信号和基于聚类的方法进行排序对齐。
   2   3   4   5   6   7   8   9   10   11   12