Page 151 - 《应用声学)》2023年第5期
P. 151

第 42 卷 第 5 期              杨昱皞等: 时频特征的海豚发声端点检测方法研究                                          1043


                                                               征可以用于识别海豚声音;Gillespie等             [14]  在齿鲸类
             0 引言
                                                               全自动检测和物种分类方法中发现,当声音中包含
                 海豚是鲸类哺乳动物,广泛生活于全球各大                           的物种从 4 种提高至 12 种时,准确率从 94% 下降至
             海域,在内海及入海口附近的咸淡水中也有分                              58.5%;Miller 等 [15]  使用开源软件 PAMguard 对须
                                                               鲸 (Balaenoptera) 叫声进行跟踪并验证其功能,发
             布,是我国国家重点保护野生动物之一。海豚的
             声信号主要分为 3 类:回声定位信号 (click)、脉冲                     现检测难度随着声信号时间和带宽的变化而升高。
             信号 (burst-pulse)、通讯信号 (whistle)    [1−2] ,whis-   以上两种研究表明,要更准确地识别出鲸豚类的
             tle 信号主要集中在 8 ∼ 15 kHz,burst-pulse 信号             声信号,需要同时考虑海洋环境中包含的物种、时
             主要集中在 15 ∼ 30 kHz,click 信号主要集中在                   间、带宽的信息。Frasier       [16]  在使用深度学习识别物
                          [3]
             100 ∼ 150 kHz 。其中 click信号是海豚捕食、定位                 种齿鲸信号的研究中,使用了无监督聚类的方法
             等主要活动的声信号,是进行海豚生物特征以及种                            得到齿鲸的信号,通过齿鲸 click 信号的声谱形状
             群资源调查的重要研究对象             [4] 。                    和分布间隔识别;王宸等            [17]  在中华白海豚 (Sousa
                 海洋环境噪声场是海洋环境中普遍存在而又                           chinensis) click 信号识别的研究中,结合能源算子
             不期望出现的背景声场。它是由风浪、降雨、航船、                           方法和滤波器对click信号实现自动检测。以上研究
             海洋生物、人类工业活动等因素产生的,是主被动                            表明,研究海豚的声音需要海豚声音的数据集,海洋
             声呐的主要声学背景干扰            [5] 。虽然目前有许多研究             环境中海豚的声信号具有高频、宽带和短时的特点,
             通过绘制信号声谱图,将声音问题转化为图像问题,                           海洋环境噪声场具有物种复杂、持续时间长、频率
             再使用深度学习或机器学习等方式进行识别                     [6] ,但    分布广的特点。如果能够获得准确的海豚声音数据
             无论是使用哪种方式,都包含大量噪声的干扰,因此                           集,海洋环境噪声场干扰等问题可以相应解决。结
             数据的预处理变得尤为重要。除海洋环境的噪声干                            合时域特征、噪声环境特征、持续时间、频域特征,本
             扰外,另一难点是海豚有 3 种声信号,其中 click 信                     文提出一种基于时频特征的海豚发声端点检测方
             号的频率往往超过人耳听力范围,声音的传播特性                            法研究。
             又使得高频分量衰减得更加迅速,导致人工处理信                                端点检测是为了找到声频信号的开始和结束
             号制作数据集变得困难,使用深度学习的方法识别                            位置,对语声和非语声的区域进行区分。端点检测
             难以进行    [7] 。                                     已经广泛应用于语声识别、语声增强和声频分类技
                 国内外对于海洋生物的声音已经有不同程度                           术的前端,可以简化语声识别过程中的冗余数据,
             的研究。在 Hildebrand 等     [8]  的海洋哺乳动物信号             加快识别速度       [18] 。常用的检测方法有:(1) 双门限
             检测和分类性能指标研究中,发现用于检测的数                             法端点检测,利用短时能量和短时过零率设定两个
             据集受到干扰使得分析数据时非常耗时,说明要                             门限可以较好地区分浊音、清音和静音,但是在海
             研究海洋中的目标生物声音,如何降低噪声及其他                            洋环境中噪声场和其他生物发声同样会导致过零
             生物声音的干扰是检测海洋动物声信号的必要条                             率产生变化,过零率不能作为海豚声音检测的参数;
             件。牛富强等       [9−10]  发现在不同的声行为下,印度                (2) 自相关法,使用自相关函数求出语声波形序列
             洋瓶鼻海豚(Tursiops aduncus)发出的click信号频                的基音周期实现噪声的区分,但是海豚的声音和海
             谱特性变化趋势基本一致;黄龙飞等                  [11]  对普里兹      洋环境的噪声场都没有规律,没有稳定的基音周期,
             湾虎鲸 (Orcinus orca) click 信号进行了检测,发现               不足以分辨海豚声音;(3) 谱熵法,是根据熵来表示
             click 脉冲间隔的范围为 10.5 ∼ 183.5 ms;周韦峥嵘               信号的有序程度,而海洋环境中的所有声信号都是
             等  [12]  对中华白海豚 (Sousa chinensis) 的whistle信       无序的,熵不能够在复杂环境中区分出目标生物的
             号进行了统计分析,得到了海豚whistle信号的谐波                        声音;(4) 比例法等其他方法。这些方法在物种信息
             特性。上述研究表明海豚不同声信号相对于海洋环                            多、频率范围广、能量大和无序性的海洋环境中并
             境噪声场都具有持续时间短、频率高的特点,这些                            不适用。
             特征为检测海豚声信号提供了重要的基础。Roch                               本文提出的一种基于时频特征的海豚发声端
             等  [13]  通过人工制作数据集根据时域变化训练了回                      点检测方法研究,以海洋环境噪声场和海豚叫声作
             声定位检测,得到了良好的效果,说明时域上的特                            为研究主体,综合时频特征研究海豚发声的端点检
   146   147   148   149   150   151   152   153   154   155   156