Page 217 - 《应用声学)》2023年第5期
P. 217
第 42 卷 第 5 期 侯晓飞等: 基于子频带能量特征提取的汽车鸣笛声识别 1109
利用式 (6) 对图 1 中鸣笛声信号时频图进行子 式 (7) 中,w ij 为神经元 j 到神经元 i 的连接权值,d i
频带能量特征处理,提取特征值矩阵并进行归一化 为神经元的期望输出,y i 为神经元的实际输出,α 为
处理,特征值矩阵包络形成的区域曲线如图2所示。 学习速率。
√ √
由图 2 中可以看出,按照上述方法进行特征点 神经网络初始化权值时从 (−1/ d, 1/ d) 之
提取后,不同种鸣笛声之间的子频带能量特征分布 间任取一值,其中,d 为中间隐含层神经元个数。
具有较大的差异,具体表现为鸣笛声子频带平均能 为了提高算法的收敛速度,在学习过程中将学
量归一化后峰值个数、子频带出现的频率位置以及 习速率按式 (8) 进行调整,以减小神经网络学习过
包络形成区域均不相同。因此可利用提取子频带能 程中的迭代次数。
量特征的方法可以进行鸣笛声的识别以及不同类
α(k) = α 0 + k(1 − α 0 − α L )/N, (8)
型鸣笛声的分类。
式 (8) 中,α k 为第 k 次学习速率,α 0 为初始学习速
1.2 鸣笛声识别与分类
率,α L 为最小学习速率,N 为迭代总次数。
BP 神经网络应用广泛,具有自适应强的能
为了加快迭代速度,减小迭代次数,神经元激
力 [11] ,本文构建 3 层 BP 神经网络来对鸣笛声进行
活函数选择为tansig函数,如式(9)所示:
识别分类。输入层提取子频带能量特征归一化后的
e − e −x
x
特征值矩阵作为神经网络的输入层参数;中间隐含 tan sig (x) = . (9)
x
e + e −x
层对输入的特征值矩阵进行学习与训练,学习过程
输出层在被激活之后,将中间层的实际输出
是通过中间层对输入特征样本的不断逼近来调整
与期望输出进行比较,在误差达到最小时将结果
神经网络权值和偏置值的过程,如式(7)所示:
输出。利用 BP 神经网络对鸣笛声识别分类时,将
w ij (t + 1) = w ij (t) + α (d i − y i ) x j (t) , (7)
采集到的鸣笛声利用子频带能量法提取特征值矩阵
1.0 1.0
0.8 0.8
ࣱکᑟ᧚ॆʷӑ 0.6 ࣱکᑟ᧚ॆʷӑ 0.6
0.4
0.4
0.2 0.2
0 0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
ߕᮠࣜऀՂ ߕᮠࣜऀՂ
(a) Პቻܦ1 (b) Პቻܦ2
1.0 1.0
0.8 0.8
ࣱکᑟ᧚ॆʷӑ 0.6 ࣱکᑟ᧚ॆʷӑ 0.6
0.4
0.4
0.2 0.2
0 0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
ߕᮠࣜऀՂ ߕᮠࣜऀՂ
(c) Პቻܦ3 (d) Პቻܦ4
图 2 鸣笛声子频带能量特征包络曲线
Fig. 2 Envelope curve of whistle sub-band energy characteristic