Page 11 - 《应用声学》2025年第3期

P. 11

第 44 卷第 3 期雷菁等：无人机搜救场景下语声增强技术进展综述 545

专门针对无人机多声源降噪的研究仍较为有限，尚
2 讨论
有待进一步探索。
无人机飞行过程中转子和旋翼会产生巨大的 ᛃ஽ೇ૝ ᛃ஽ೇ/
自噪声，同时传声器通常安装在距离无人机机身较 үηՂ ᣁߕᣁᤴ
近的位置，这导致传声器采集的声频信号往往具有 Џᰎ
极低的 SNR。相比一般场景中的语声增强任务，无 ηৌ
人机场景下的语声增强面临更为复杂的挑战，主要 ᒭ٪ܦԠ
ᏦηՂ ᣁߕҫᤴए
表现在以下几个方面：首先，噪声源的强度和频率特
性更为复杂，需要考虑转子噪声、气流噪声等多种图 5 无人机自噪声相关先验信息
噪声成分的干扰；其次，目标信号的传输路径和接收 Fig. 5 A priori information related to drone ego-noise
环境动态变化，可能导致目标信号衰减或失真，进一
现有的无人机场景下的语声增强方法已取得
步增加了语声增强任务的难度。
一定进展，然而，这些方法仍然面临着一些挑战。传
无人机自噪声在搜救场景中通常被视为噪声
统的语声增强方法通常在低 SNR 条件下难以准确
的主要来源，其对语声信号的干扰尤为显著，因此
地估计噪声协方差矩阵。此外，这些传统方法在利
大多数相关研究都将重点放在如何有效消除自噪
用非声学信息对自噪声进行建模时存在一定的局
声上，而较少关注环境噪声的潜在影响。环境噪声
限性。另一方面，尽管深度学习方法在许多领域取
在实际应用中同样会对语声质量产生干扰。然而，
得了显著进展，但目前开源的无人机噪声数据集较
目前的文献中，尽管有一部分工作已经认识到环境
为稀缺 [23−26] ，且数据量通常较小，这使得基于深
噪声的存在 [5,18] ，但这些研究往往缺乏针对环境噪
度学习的模型训练面临挑战。现有的深度学习语声
声的专门分析或处理方法，通常仅将其视为次要因
增强方法大多面向混合信号SNR较高的场景，在低
素一并纳入整体降噪框架，而未设计特定的技术手
SNR环境下，性能往往会显著下降。因此，针对无人
段来专门处理。抑制无人机的自噪声并提取清晰的
机场景的语声增强方法仍需要进一步研究和优化。
语声信号，仍是无人机场景下语声增强任务的主要
挑战。 3 结论
为了更好地降低无人机自噪声的影响，通常需
要更多的先验信息。图 5 展示了文献中使用过的与近年来，无人机的应用逐渐拓展到搜救、巡检、
无人机自噪声相关的先验信息。部分研究者直接使物流运输等多个领域，在复杂和极端环境中展现出
用传声器采集的自噪声参考信号作为先验信息 [28] ，独特的优势。特别是在搜救场景中，无人机可以通
另一些研究则考虑了螺旋桨振动信号 [4] 、螺旋桨转过搭载传声器采集声频信号，在照明不足或视野受
速 [5,22,33−34] 、转子加速度 [5,33−34] 等非声学信息。限的条件下提供关键线索。然而，无人机的自噪声
这些先验信息能够提供关于无人机状态的关键线给声频信号的采集和处理带来了巨大挑战，亟需高
索，有助于有效抑制自噪声。然而，由于无人机的自效的语声增强技术来提高声频信号的可用性和可
噪声具有非平稳性，而且转速与噪声谐波频率之间靠性。本文梳理了无人机搜救场景下语声增强的研
并非简单的线性关系，现有的建模方法尚未能够充究现状，重点分析了无人机自噪声的特性及其对声
分利用这些非声学信息来精确重构无人机噪声。因频处理的影响。针对传统方法和基于深度学习的增
此，如何更有效地利用先验信息，仍然是降低无人机强技术，本文总结了其应用和局限性，并对现有的无
自噪声影响的一个重要研究方向。人机噪声相关开源数据集进行了全面回顾。
目前无人机场景下的语声增强研究均聚焦于在未来发展中，针对无人机场景的增强技术需
单声源增强，但部分方法具备多声源处理的潜力。要进一步的研究和探索。结合无人机的自噪声特
例如，文献 [25] 和文献 [35] 可以在 DOA已知的情况性，开发适用于低SNR情况下的语声增强算法将是
下分离多个声源。此外，文献 [44] 利用视频中的空研究的重点。同时，建立多样化、标准化的无人机声
间信息跟踪多个潜在声源，获取目标源的 DOA，并频数据集也将有助于推动相关研究的发展。为了实
使用时频空间滤波器从期望的方向提取声音。然而，现无人机在更多复杂环境中的应用，未来的技术方

6 7 8 9 10 11 12 13 14 15 16