Page 155 - 《应用声学)》2023年第5期
P. 155

第 42 卷 第 5 期              杨昱皞等: 时频特征的海豚发声端点检测方法研究                                          1047


             Sounds Database” (https://ieee-dataport.org/)、        通过观察图 6、表 1、表 2 可以发现,第 1 组阈值
             “whoi”(https://cis.whoi.edu/) 国外数据集。本文            对信号的变化过于敏感,将信号切割得非常零散,第
             实验平台为 python 和 Audition,选取了不同海豚                   3 组阈值丢失了部分 click 信号,最终选择第 2 组阈
             3 种声信号进行实验。考虑到海豚 click 信号为                        值作为检测阈值,既能够保证对声音时频变化的灵
             10.5 ∼ 183.5 ms,将声频统一切割为 1 s。为了减少                 敏度,也不会丢失 click 信号,并且提取的有效声段
             计算机的计算量,防止数据发生越界,以输入的声信                           包含最少的噪声。
             号的最大振幅为1做归一化处理。                                        5.0
                                                                   ॆʷӑ૝ࣨ/10 -2
             2.2 实验设计                                               4.8
                                                                    4.6
                 (1) 比较不同窗长对检测结果的影响。根据中                             4.4
                                                                    4.2
             华白海豚发声时的声谱图可以发现中华白海豚声                                      0     20     40    60     80    100
             音的音节持续时间为10 ms ∼ 0.1 s。结合窗长越长,                          25
                                                                     20
             时域分辨率越低、频域分辨率越高的规律。而本文                                 ̄᫽៨᠏ॷ/10 3  15
                                                                     10
             方法中对时域分辨率要求高于频域分辨率要求,所                                     0     20     40    60     80    100
             以分别选择了 10 ms、20 ms、50 ms 窗长对比实验,                                          ࣝ஝
                                                                                    (a) 10 msቔ᫂
             如图5所示。

                 通过对比图 5 可以发现,图中曲线的平滑度随                             4.7
                                                                    4.6
             着窗长增加而增加。说明窗长越短,短时能量和谱                                ॆʷӑ૝ࣨ/10 -2  4.5
                                                                    4.4
             质心对信号的变化越敏感;窗长越长,短时能量和                                 4.3
                                                                        0     10     20    30     40     50
             谱质心的变化越平稳。检测海豚 click 信号时需要                             2.50
             在很短的时间内检测出很大的变化,因此需要更                                 ̄᫽៨᠏ॷ/10 3  2.00
             高的时域分辨率、更高的灵敏度,窗长应当选取较                                 1.50
                                                                    1.00
             小值;当检测海豚burst-pulse信号和whistle信号时                           0     10     20    30     40     50
                                                                                       ࣝ஝
             可以采用稍长的窗长,因为海豚的 whistle 信号和                                            (b) 20 msቔ᫂
             burst-pulse信号的持续时间更长,相对 click信号频                       4.60
             率变化更小。                                                ॆʷӑ૝ࣨ/10 -2  4.50
                 (2) 当检测海豚 click 信号时,容易受到突发高                        4.40
             频噪声的干扰,因此实验不同阈值对端点检测精度                                 4.30  0  2.5  5.0  7.5  10.0  12.5  15.0  17.5
             的影响。参考 1.3.4 节,实验选取了 3 组不同的阈值:                          26
                                                                     22
             1 ⃝ 短时能量的 55% 分界值、谱质心 2/3 位数; 2 ⃝ 短                   ̄᫽៨᠏ॷ/10 3  18
             时能量的均值与 2/3 位数之的均值、谱质心 2/3 位                            14
                                                                     10
                                                                                        10.0
             数;3 ⃝ 短时能量的 2/3 位数、谱质心 2/3 位数与谱                            0   2.5  5.0  7.5  ࣝ஝  12.5  15.0  17.5
             质心 3/4 位数的均值。分别对同一段海洋环境下中                                              (c) 50 msቔ᫂
             华白海豚click 信号进行端点检测如图6 所示,图中                                   图 5  不同窗长的时频特征
             每两条虚线表示一段有效声频的起始点和终止点。                               Fig. 5 Time frequency characteristics of different
             将不同阈值的检测结果进行对比如表1、表2所示。                              window lengths

                                                  表 1   不同阈值检测结果
                                        Table 1 Test results of different thresholds

                                                                    提取声段    包含的噪声段 丢失的 click 信号
                               短时能量的 55% 分界值、谱质心 2/3 位数                17        8           1
                         短时能量的均值与 2/3 位数之和的均值、谱质心 2/3 位数               8         2           0
                       短时能量的 2/3 位数、谱质心 2/3 位数与谱质心 3/4 位数的均值           9         4           2
   150   151   152   153   154   155   156   157   158   159   160