Page 155 - 《应用声学)》2023年第5期
P. 155
第 42 卷 第 5 期 杨昱皞等: 时频特征的海豚发声端点检测方法研究 1047
Sounds Database” (https://ieee-dataport.org/)、 通过观察图 6、表 1、表 2 可以发现,第 1 组阈值
“whoi”(https://cis.whoi.edu/) 国外数据集。本文 对信号的变化过于敏感,将信号切割得非常零散,第
实验平台为 python 和 Audition,选取了不同海豚 3 组阈值丢失了部分 click 信号,最终选择第 2 组阈
3 种声信号进行实验。考虑到海豚 click 信号为 值作为检测阈值,既能够保证对声音时频变化的灵
10.5 ∼ 183.5 ms,将声频统一切割为 1 s。为了减少 敏度,也不会丢失 click 信号,并且提取的有效声段
计算机的计算量,防止数据发生越界,以输入的声信 包含最少的噪声。
号的最大振幅为1做归一化处理。 5.0
ॆʷӑࣨ/10 -2
2.2 实验设计 4.8
4.6
(1) 比较不同窗长对检测结果的影响。根据中 4.4
4.2
华白海豚发声时的声谱图可以发现中华白海豚声 0 20 40 60 80 100
音的音节持续时间为10 ms ∼ 0.1 s。结合窗长越长, 25
20
时域分辨率越低、频域分辨率越高的规律。而本文 ̄៨᠏ॷ/10 3 15
10
方法中对时域分辨率要求高于频域分辨率要求,所 0 20 40 60 80 100
以分别选择了 10 ms、20 ms、50 ms 窗长对比实验, ࣝ
(a) 10 msቔ᫂
如图5所示。
通过对比图 5 可以发现,图中曲线的平滑度随 4.7
4.6
着窗长增加而增加。说明窗长越短,短时能量和谱 ॆʷӑࣨ/10 -2 4.5
4.4
质心对信号的变化越敏感;窗长越长,短时能量和 4.3
0 10 20 30 40 50
谱质心的变化越平稳。检测海豚 click 信号时需要 2.50
在很短的时间内检测出很大的变化,因此需要更 ̄៨᠏ॷ/10 3 2.00
高的时域分辨率、更高的灵敏度,窗长应当选取较 1.50
1.00
小值;当检测海豚burst-pulse信号和whistle信号时 0 10 20 30 40 50
ࣝ
可以采用稍长的窗长,因为海豚的 whistle 信号和 (b) 20 msቔ᫂
burst-pulse信号的持续时间更长,相对 click信号频 4.60
率变化更小。 ॆʷӑࣨ/10 -2 4.50
(2) 当检测海豚 click 信号时,容易受到突发高 4.40
频噪声的干扰,因此实验不同阈值对端点检测精度 4.30 0 2.5 5.0 7.5 10.0 12.5 15.0 17.5
的影响。参考 1.3.4 节,实验选取了 3 组不同的阈值: 26
22
1 ⃝ 短时能量的 55% 分界值、谱质心 2/3 位数; 2 ⃝ 短 ̄៨᠏ॷ/10 3 18
时能量的均值与 2/3 位数之的均值、谱质心 2/3 位 14
10
10.0
数;3 ⃝ 短时能量的 2/3 位数、谱质心 2/3 位数与谱 0 2.5 5.0 7.5 ࣝ 12.5 15.0 17.5
质心 3/4 位数的均值。分别对同一段海洋环境下中 (c) 50 msቔ᫂
华白海豚click 信号进行端点检测如图6 所示,图中 图 5 不同窗长的时频特征
每两条虚线表示一段有效声频的起始点和终止点。 Fig. 5 Time frequency characteristics of different
将不同阈值的检测结果进行对比如表1、表2所示。 window lengths
表 1 不同阈值检测结果
Table 1 Test results of different thresholds
提取声段 包含的噪声段 丢失的 click 信号
短时能量的 55% 分界值、谱质心 2/3 位数 17 8 1
短时能量的均值与 2/3 位数之和的均值、谱质心 2/3 位数 8 2 0
短时能量的 2/3 位数、谱质心 2/3 位数与谱质心 3/4 位数的均值 9 4 2