Page 153 - 《应用声学》2022年第4期
P. 153
第 41 卷 第 4 期 贾尚帅等: 利用卷积网络的高速列车主观声品质预测 651
表 5 主观评价与各客观指标之间的相关性 声品质某个方面的特征,无法真实反映车内噪声的
Table 5 Correlation between subjective 物理特性,所以基于上述参数的预测模型不能很好
evaluation results and sound quality ob- 地指导车内声学舒适性的优化,且主观评价预测精
jective parameters 度也还有待提高。
CNN 是用于图像识别等计算机视觉任务的算
客观指标 响度 尖锐度 粗糙度 抖动度
法模型。使用 CNN构建主观评价预测模型,可以将
Spearman 相关性 −0.88 −0.75 −0.71 −0.52
车内噪声信号的时-频分布图作为输入参数,相较于
3.2 BP神经网络预测模型 传统使用时域或者频域得到的评价指标,可以同时
为了建立起客观声品质参数与主观声品质之 考虑声音的时域和频域特性,增加模型的预测准确
间的映射关系,本文采用 BP 神经网络,根据 Spear- 度。典型的 CNN 由以下部件构成:输入层、卷积层、
man相关性分析的结果,选择响度、尖锐度、粗糙度、 激励层、池化层、全连接层和输出层等。从输入到输
抖动度作为网络输入,以主观评价结果作为输出,研 出的中间进行处理的计算层都称之为隐含层,CNN
究建立基于声品质客观参数的车内声学舒适性预 中每个神经元的运算过程如下:
( )
测模型。 f(x) = act ∑ (3)
√ θ (n−i)(n−j) x ij + b ,
根据经验公式 m = n + l + a 来选择隐藏层
节点,式中,m 为隐含层神经元个数;n 为输入层神 其中,act()表示激活函数,θ 是对神经元加权值,b是
经元个数;l 为输出层神经元个数;a一般取值1∼10。 加偏置。
根据该公式,本文选择两个隐藏层,第一个隐藏层 卷积层是 CNN 最重要的组成部分,通过卷积
数目为 10 个,第二个隐藏层数目为 4 个。将声样本 层对输入数据进行处理,一个卷积核能得到某一个
分为 80% 的训练样本 (15 个) 和 20% 的检验样本 (4 特征。如果输入的数据的大小为 w × h,卷积核的大
个)。主观评价结果与BP 神经网络模型预测值的比 小为k × k,输出的数据大小为 w × h ,步长为s,则
′
′
较如图 6 所示,可以看出两者之间的趋势较为一致。 输出和输入的关系如式(4)和式(5)所示:
经过误差计算可以得知,其中训练样本的准确率为 w − k
′
w = + 1, (4)
89.2%,检验样本的准确率为87.6%。 s
h − k
′
h = + 1. (5)
5
s
由于经过多个卷积操作之后,会产生很大的数
4
据量,将增加网络的训练难度。为了在减少计算量
3 的同时防止过拟合的出现,可通过池化层进行降
ᮕϙ 2 维,减少参数量。全连接层中每个神经元和上一层
中的所有节点相连,会将传递过来的数据拉伸成
1
n × 1 的列向量,因此全连接层的参数也是最多的
0 一层。
0 1 2 3 4 5
˟កѬ
4.2 CNN配置参数
图 6 主观评价结果与 BP 神经网络预测值 神经网络参数的选择并没有固定方法。一般
Fig. 6 Subjective evaluation results and BP neu- 说来,内核越多,过滤的类型也就越多,意味着预
ral network model prediction value
测效果越好;而层数越多,意味着 CNN 模型更加完
4 基于CNN的声品质预测模型研究 善。但是,内核和层数越多,消耗的计算资源也就越
多,计算的时间也就越长,因此需要综合考虑。本文
4.1 CNN 根据 Ferreira 等 [16] 的相关文献设计了如图 7 所示
由于响度、尖锐度等心理声学参数只能表征噪 CNN主观预测模型。