Page 153 - 《应用声学》2022年第4期
P. 153

第 41 卷 第 4 期              贾尚帅等: 利用卷积网络的高速列车主观声品质预测                                          651


                  表 5  主观评价与各客观指标之间的相关性                        声品质某个方面的特征,无法真实反映车内噪声的
                Table 5  Correlation between subjective        物理特性,所以基于上述参数的预测模型不能很好
                evaluation results and sound quality ob-       地指导车内声学舒适性的优化,且主观评价预测精
                jective parameters                             度也还有待提高。

                                                                   CNN 是用于图像识别等计算机视觉任务的算
                    客观指标       响度    尖锐度 粗糙度 抖动度
                                                               法模型。使用 CNN构建主观评价预测模型,可以将
                 Spearman 相关性  −0.88  −0.75  −0.71  −0.52
                                                               车内噪声信号的时-频分布图作为输入参数,相较于
             3.2 BP神经网络预测模型                                    传统使用时域或者频域得到的评价指标,可以同时
                 为了建立起客观声品质参数与主观声品质之                           考虑声音的时域和频域特性,增加模型的预测准确
             间的映射关系,本文采用 BP 神经网络,根据 Spear-                     度。典型的 CNN 由以下部件构成:输入层、卷积层、
             man相关性分析的结果,选择响度、尖锐度、粗糙度、                         激励层、池化层、全连接层和输出层等。从输入到输
             抖动度作为网络输入,以主观评价结果作为输出,研                           出的中间进行处理的计算层都称之为隐含层,CNN
             究建立基于声品质客观参数的车内声学舒适性预                             中每个神经元的运算过程如下:
                                                                               (                    )
             测模型。                                                     f(x) = act  ∑                       (3)
                                   √                                                θ (n−i)(n−j) x ij + b ,
                 根据经验公式 m =          n + l + a 来选择隐藏层
             节点,式中,m 为隐含层神经元个数;n 为输入层神                         其中,act()表示激活函数,θ 是对神经元加权值,b是
             经元个数;l 为输出层神经元个数;a一般取值1∼10。                       加偏置。
             根据该公式,本文选择两个隐藏层,第一个隐藏层                                卷积层是 CNN 最重要的组成部分,通过卷积
             数目为 10 个,第二个隐藏层数目为 4 个。将声样本                       层对输入数据进行处理,一个卷积核能得到某一个

             分为 80% 的训练样本 (15 个) 和 20% 的检验样本 (4                特征。如果输入的数据的大小为 w × h,卷积核的大
             个)。主观评价结果与BP 神经网络模型预测值的比                          小为k × k,输出的数据大小为 w × h ,步长为s,则
                                                                                            ′
                                                                                                 ′
             较如图 6 所示,可以看出两者之间的趋势较为一致。                         输出和输入的关系如式(4)和式(5)所示:
             经过误差计算可以得知,其中训练样本的准确率为                                                 w − k
                                                                                ′
                                                                               w =        + 1,            (4)
             89.2%,检验样本的准确率为87.6%。                                                    s
                                                                                   h − k
                                                                                ′
                                                                               h =       + 1.             (5)
                    5
                                                                                     s
                                                                   由于经过多个卷积操作之后,会产生很大的数
                    4
                                                               据量,将增加网络的训练难度。为了在减少计算量
                    3                                          的同时防止过拟合的出现,可通过池化层进行降
                  ᮕ฾ϙ  2                                       维,减少参数量。全连接层中每个神经元和上一层
                                                               中的所有节点相连,会将传递过来的数据拉伸成
                    1
                                                               n × 1 的列向量,因此全连接层的参数也是最多的
                    0                                          一层。
                     0     1      2     3      4     5
                                   ˟᜺កѬ
                                                               4.2  CNN配置参数
                   图 6  主观评价结果与 BP 神经网络预测值                         神经网络参数的选择并没有固定方法。一般
               Fig. 6 Subjective evaluation results and BP neu-  说来,内核越多,过滤的类型也就越多,意味着预
               ral network model prediction value
                                                               测效果越好;而层数越多,意味着 CNN 模型更加完

             4 基于CNN的声品质预测模型研究                                 善。但是,内核和层数越多,消耗的计算资源也就越
                                                               多,计算的时间也就越长,因此需要综合考虑。本文
             4.1 CNN                                           根据 Ferreira 等  [16]  的相关文献设计了如图 7 所示
                 由于响度、尖锐度等心理声学参数只能表征噪                          CNN主观预测模型。
   148   149   150   151   152   153   154   155   156   157   158