Page 7 - 《应用声学》2025年第3期
P. 7
第 44 卷 第 3 期 雷菁等: 无人机搜救场景下语声增强技术进展综述 541
与旋转速度相关。旋翼切割空气产生的噪声以及 率也随之增加;在 7.5 ∼ 15 s 时,发动机旋转速度
激流冲击传声器产生的风噪则为宽带噪声,均匀 保持不变,窄带噪声相应的谐波频率也保持恒定;
地分布在整个频谱上。图 2(a) 展示的是 DJ M300 而在最后的 6 s 内,发动机旋转速度减小,窄带噪
自噪声的频谱,图 2(b) 展示的是 3DR IRIS 自噪 声谐波频率也随之下降。而宽带噪声在频谱上呈
声的频谱,图 2(c) 则是目标语声信号和 3DR IRIS 现较为均匀的分布,覆盖了较广的频率范围。在
自噪声共同存在时的频谱。从图 2(a) 和图 2(b) 中 图 2(c) 中,在 5 ∼ 15 s 之间,存在 SNR 为 −15 dB
可以看到,不同型号无人机的自噪声中均包含着 的目标语声。目标语声的信号在频谱上几乎被
窄带噪声。在图 2(b) 和图 2(c) 中,前 7.5 s 时,发动 完全噪声成分淹没,给语声增强任务带来了巨大
机旋转速度逐渐增大,窄带噪声的各个谐波的频 的挑战。
4 -30 4 -30 4 -30
3 3 3
ᮠဋ/kHz 2 -50 ᮠဋ/kHz 2 -50 ᮠဋ/kHz 2 -50
1 1 1
0 -70 0 -70 0 -70
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
ᫎ/s ᫎ/s ᫎ/s
(a) DJ M300ᒭ٪ܦᮠ៨ (b) 3DR IRISᒭ٪ܦᮠ៨ [15] (c) 3DR IRISᒭ٪ܦ+ឦܦᮠ៨ [15]
图 2 无人机自噪声频谱及自噪声与语声的频谱
Fig. 2 The spectrum of drone ego-noise and the spectrum of ego-noise and speech
1.2 无人机场景下的语声增强研究进展 语声活动性检测 (Voice activity detection, VAD),
1.2.1 传统方法 对比了能量特征、频谱特征和混合特征的性能。该
研究证明基于带噪信号的频谱特征的 VAD 性能更
目前,传统的单通道降噪方法通常依赖于非声
优。表1展示了这些传统的单通道方法的实验设置。
学参考信息来辅助噪声抑制。2015 年,Fernandes
表中研究均采用了四旋翼无人机。由于难以利用非
等 [4] 通过使用自适应滤波器来估计无人机自噪声。
声学信息准确重构无人机自噪声且混合信号 SNR
该方法使用螺旋桨附近的压电传感器获取的振动
较低,这些方法的降噪性能较差。
信号作为自适应滤波器的输入,使用噪声与语声的
相比于单通道的方法,多通道的方法能够进一
混合信号作为期望信号。在算法收敛后,误差信号
步利用空间信息以提升降噪性能。表2 展示了传统
近似等于目标语声信号。Yoon 等 [14] 采用同样的思
的多通道方法的实验设置。目前多通道的方法主要
路估计目标语声,但自适应滤波器的输入信号不同。 分为盲源分离和波束形成两类。盲源分离方法主
该方法采集螺旋桨转速,根据当前转速和参考转速 要利用目标信号和噪声的统计独立性来进行分离。
的比值对预先获取的无人机自噪声进行变调,从而 2017年,Nakadai等 [24] 提出了一种在线的鲁棒主成
获取无人机的自噪声作为自适应滤波器的输入信 分分析 (Online robust principal component analy-
号。此外,也有研究人员尝试直接使用谱减法消除 sis, ORPCA),将信号分解为低秩分量和稀疏分量,
噪声。Alif Bin Abdul Qayyum等 [22] 对转子转速和 其中低秩分量为周期性噪声,稀疏分量为语声信号。
噪声频率的关系进行建模,利用带通滤波器提取转 之后,Wang 等 [25] 使用独立成分分析 (Independent
速对应的噪声谐波,再使用谱减法消除无人机噪声。 component analysis, ICA) 在每个频点上估计一个
也有学者不使用额外的非声学信息,直接对混合信 解混矩阵来分离目标信号和噪声,并依次使用基于
号进行处理。Jaiswal [23] 提取带噪信号的特征进行 参考信号和基于聚类的方法进行排序对齐。