Page 6 - 《应用声学》2025年第3期

P. 6

540 2025 年 5 月

放空间缺乏声波反射结构，声信号以直达声为主，混
0 引言
响成分可忽略不计。此时，语声增强的核心挑战转
随着无人机技术的飞速发展，无人机在救援、为极低 SNR 问题。无人机场景下带噪信号的 SNR
农业、物流、国防等领域的应用变得越来越普及和一般低于 −15 dB，远低于一般场景中带噪信号的
重要。在搜救任务中，无人机凭借其灵活性、机动性 SNR。在这种情况下，高能量的噪声会严重遮蔽较
和成本效益的优势，逐渐成为执行复杂任务的重要弱的语声信号，使得语声增强任务变得更加困难。
工具。在地震、洪灾、山地失踪等紧急情况下，无人目前，已有部分研究尝试将自适应滤波 [4,14] 、波束
机可以进入人力无法轻易覆盖的区域，搜寻潜在的形成 [15−16] 等传统方法应用于无人机场景的语声
受困人员。无人机的应用可以显著提升搜救效率，增强，也有一些研究探索了深度学习技术 [17−18] 在
同时降低救援人员进入危险环境的风险 [1−3] 。该领域的应用。然而，总体而言，这一领域的研究仍
传统的无人机搜救技术主要依赖于图像信息。处于起步阶段，尚需进一步深入研究。
然而，在低光照条件、恶劣天气或遮挡严重的环境为了系统梳理近年来无人机搜救场景下语声
下，仅依赖图像可能无法提供足够的有效信息。例增强的研究现状，本文首先对无人机的自噪声特性
如，夜间搜救可能因缺乏光源而难以定位目标，森进行了详细分析，接着总结了无人机场景下传统语
林等复杂地形中的遮挡也会对视觉识别造成干扰。声增强方法和基于深度学习的增强方法的最新进
在此背景下，声频信号因其对环境适应性强的优势，展，并对现有的无人机噪声数据集进行了归纳。最
逐渐受到重视。无人机搭载的传声器能够采集环后，本文深入分析了当前无人机场景下语声增强任
境中的声信号，如呼救声、敲击声或其他特殊声信务面临的主要挑战，并展望了未来可能的发展方向，
号，从而为搜救任务提供关键的信息。然而，由于环旨在为该领域的进一步研究和技术发展提供参考。
境噪声和无人机自噪声的干扰，采集信号的信噪比
(Signal-to-noise ratio, SNR)通常极低，需要进行降 1 研究进展
噪处理 [4−5] 。
1.1 无人机自噪声特性
语声增强的目的是从捕获的带噪声和混响的
无人机场景下声频信号处理的最大挑战是极
语声信号中去除噪声和混响，提取出干净的语声信
低的 SNR。由于无人机自噪声的存在，采集信号的
号。语声增强对于数字语声通信设备在噪声环境下
SNR 通常在 −15 dB 以下。无人机自噪声主要来源
的应用具有重要意义。数字语声通信设备包括助
包括转子的旋转、旋翼切割空气和风噪 [15−16,19] 。
听器、视听会议设备、智能手机和无线耳机等。在
图 1 为 DJ M300 四旋翼无人机的结构，其机身包含
这些一般场景下，语声增强技术已经得到了较为充
四个转子，每个转子驱动一对旋翼为无人机提供动
分的研究。传统方法主要依赖信号处理技术，如谱
力。电动机旋转的噪声具有明显的方向性，而旋翼
减法、维纳滤波和基于统计模型的方法，这些方法
切割空气产生的噪声和风噪可以被认为是扩散噪
通常通过分析噪声和语声的统计特性，实现对语声
声 [20−21] 。
信号降噪 [6−7] 。近年来，随着深度学习技术的发展，
基于神经网络的语声增强方法逐渐成为主流 [8−13] 。
利用深度神经网络(Deep neural network, DNN)的
强大建模能力，这些方法能够从大量数据中学习语
声和噪声的特征，显著提升了语声增强的效果。特
别是卷积神经网络、循环神经网络以及生成对抗网 ᣁߕ
络 (Generative adversarial network, GAN) 等技术 ஽Ꮳ
的应用，使得语声增强方法在性能和应用广度上有
图 1 无人机结构
了显著进步，为实际场景的语声处理需求提供了更
Fig. 1 Structure of the drone
为灵活的解决方案。然而，直接将一般场景下的语
声增强方法应用于无人机场景往往难以取得理想从频谱结构的角度分析，电动机旋转产生的噪
的效果。在无人机搜救等室外应用场景中，由于开声为窄带噪声，具有明显的谐波结构，且谐波结构

1 2 3 4 5 6 7 8 9 10 11