Page 6 - 《应用声学》2025年第3期
P. 6
540 2025 年 5 月
放空间缺乏声波反射结构,声信号以直达声为主,混
0 引言
响成分可忽略不计。此时,语声增强的核心挑战转
随着无人机技术的飞速发展,无人机在救援、 为极低 SNR 问题。无人机场景下带噪信号的 SNR
农业、物流、国防等领域的应用变得越来越普及和 一般低于 −15 dB,远低于一般场景中带噪信号的
重要。在搜救任务中,无人机凭借其灵活性、机动性 SNR。在这种情况下,高能量的噪声会严重遮蔽较
和成本效益的优势,逐渐成为执行复杂任务的重要 弱的语声信号,使得语声增强任务变得更加困难。
工具。在地震、洪灾、山地失踪等紧急情况下,无人 目前,已有部分研究尝试将自适应滤波 [4,14] 、波束
机可以进入人力无法轻易覆盖的区域,搜寻潜在的 形成 [15−16] 等传统方法应用于无人机场景的语声
受困人员。无人机的应用可以显著提升搜救效率, 增强,也有一些研究探索了深度学习技术 [17−18] 在
同时降低救援人员进入危险环境的风险 [1−3] 。 该领域的应用。然而,总体而言,这一领域的研究仍
传统的无人机搜救技术主要依赖于图像信息。 处于起步阶段,尚需进一步深入研究。
然而,在低光照条件、恶劣天气或遮挡严重的环境 为了系统梳理近年来无人机搜救场景下语声
下,仅依赖图像可能无法提供足够的有效信息。例 增强的研究现状,本文首先对无人机的自噪声特性
如,夜间搜救可能因缺乏光源而难以定位目标,森 进行了详细分析,接着总结了无人机场景下传统语
林等复杂地形中的遮挡也会对视觉识别造成干扰。 声增强方法和基于深度学习的增强方法的最新进
在此背景下,声频信号因其对环境适应性强的优势, 展,并对现有的无人机噪声数据集进行了归纳。最
逐渐受到重视。无人机搭载的传声器能够采集环 后,本文深入分析了当前无人机场景下语声增强任
境中的声信号,如呼救声、敲击声或其他特殊声信 务面临的主要挑战,并展望了未来可能的发展方向,
号,从而为搜救任务提供关键的信息。然而,由于环 旨在为该领域的进一步研究和技术发展提供参考。
境噪声和无人机自噪声的干扰,采集信号的信噪比
(Signal-to-noise ratio, SNR)通常极低,需要进行降 1 研究进展
噪处理 [4−5] 。
1.1 无人机自噪声特性
语声增强的目的是从捕获的带噪声和混响的
无人机场景下声频信号处理的最大挑战是极
语声信号中去除噪声和混响,提取出干净的语声信
低的 SNR。由于无人机自噪声的存在,采集信号的
号。语声增强对于数字语声通信设备在噪声环境下
SNR 通常在 −15 dB 以下。无人机自噪声主要来源
的应用具有重要意义。数字语声通信设备包括助
包括转子的旋转、旋翼切割空气和风噪 [15−16,19] 。
听器、视听会议设备、智能手机和无线耳机等。在
图 1 为 DJ M300 四旋翼无人机的结构,其机身包含
这些一般场景下,语声增强技术已经得到了较为充
四个转子,每个转子驱动一对旋翼为无人机提供动
分的研究。传统方法主要依赖信号处理技术,如谱
力。电动机旋转的噪声具有明显的方向性,而旋翼
减法、维纳滤波和基于统计模型的方法,这些方法
切割空气产生的噪声和风噪可以被认为是扩散噪
通常通过分析噪声和语声的统计特性,实现对语声
声 [20−21] 。
信号降噪 [6−7] 。近年来,随着深度学习技术的发展,
基于神经网络的语声增强方法逐渐成为主流 [8−13] 。
利用深度神经网络(Deep neural network, DNN)的
强大建模能力,这些方法能够从大量数据中学习语
声和噪声的特征,显著提升了语声增强的效果。特
别是卷积神经网络、循环神经网络以及生成对抗网 ᣁߕ
络 (Generative adversarial network, GAN) 等技术 Ꮳ
的应用,使得语声增强方法在性能和应用广度上有
图 1 无人机结构
了显著进步,为实际场景的语声处理需求提供了更
Fig. 1 Structure of the drone
为灵活的解决方案。然而,直接将一般场景下的语
声增强方法应用于无人机场景往往难以取得理想 从频谱结构的角度分析,电动机旋转产生的噪
的效果。在无人机搜救等室外应用场景中,由于开 声为窄带噪声,具有明显的谐波结构,且谐波结构