Page 71 - 《应用声学》2024年第6期
P. 71

第 43 卷 第 6 期          苌文涵等: 结合改进 DRSE-GCNN 的电力调度语声识别模型                                     1247


             量为定量,多层 GCNN导致后面网络有效信息越来                          语谱图相关噪声和冗余信息的阈值,通过阈值消除
             越少。                                               噪声和冗余信息,可以得到有效的特征,且特征更
                                                               具有代表性。另外,前馈神经网络层的引入增加了
                  5.5
                                                               GCNN 的有效容量,使得模型提取的上下文信息更
                  5.0
                                                   ฾តᬷ         加有效,识别效果较好。
                  4.5
                 ߚᩲឨဋ/%  4.0                       ᝫጷᬷ              16.0
                  3.5
                                                                    14.0
                                                                                                DRSN-GCNN
                  3.0
                  2.5                                               12.0                      ஈᤉDRSN-GCNN
                                                                    10.0
                  2.0                                              ߚᩲឨဋ/%  8.0
                      6   7   8   9  10  11  12  13  14                                       DRSN-ஈᤉGCNN
                                  GCNNࡏ஝                             6.0
                                                                     4.0                            వ஡வข
                                                                     2.0
                    图 6  不同 GCNN 层数的语声识别结果                            0
                                                                         -10     -5     0      5      10
               Fig. 6 Speech recognition results with different
                                                                                      η٪උ/dB
               GCNN layers
                                                                         图 7  不同信噪比的语声识别结果
                 为了验证本文模型对不同输入特征的识别效
                                                                  Fig. 7 Speech recognition results with different
             果,分别输入语谱图、Fbank(40 维的声学特征) 和                         signal-to-noise ratios
             梅尔频率倒谱系数(Mel-frequency cepstrum coeffi-
                                                                   为了验证本文模型的优越性,将本文方法
             cient, MFCC)(1阶、2 阶差分的 39 维的特征)。不同
                                                               与文献 [33]CNN 结合 BLATM 模型、 文献 [34] 的
             输入特征的试验结果如表4所示。
                                                               DFSMN-T 模型、文献 [35] 的 DL-T 模型进行了比
                        表 4  不同输入特征的 CER                       较分析,均采用本文数据集进行训练和测试,分别对
                Table 4 CER with different input features
                                                               比了模型参数、CER 和平均识别时间。不同模型在
                                                               测试集上的试验结果如表5所示。
                 输入特征       训练集 CER/%       测试集 CER/%
                 语谱图            2.58            2.87                     表 5  不同模型测试集结果对比
                 Fbank          4.62            5.49              Table 5  Results comparison of different
                 MFCC          10.51           11.53              model test sets

                 由表 4 可以看出,不管是在验证集还是测试                               模型      模型参数/M      CER/%    平均耗时/s
             集,语谱图输入 CER 都是最低的,与 Fbank CER                         本文方法        6.48       2.87      0.187
             相比分别下降了 44.16%和 47.72%,与MFCC CER                      文献 [33]     26.32      4.52      0.452
             相比分别下降了 75.45% 和 75.11%。这主要是因为                        文献 [34]     262.00     7.78      0.654
             Fbank 和 MFCC 在多次提取后丢失了部分原始信                           文献 [35]     28.00      4.77      0.338
             息,MFCC 原始信息丢失最多,所以 CER 最高。而
                                                                   由表 5 可以看出,本文模型在模型参数、CER
             语谱图原始信息保留最完整,虽然含有一定的噪声
                                                               和平均耗时方面均为最佳。与文献 [33]、文献 [34]
             和冗余信息,但本文模型可以很好地清除这些不利
                                                               和文献 [35] 模型相比,本文模型参数分别降低了
             因素,达到最好的识别效果。
                                                               75.38%、97.40、76.86%;CER 分别降低了 36.50%、
                 本文进一步验证了该文模型在噪声环境下的
                                                               63.11%、39.83%;平均耗时分别降低了 58.63%、
             鲁棒性,将咖啡馆噪声、汽车噪声和白噪声加入,
                                                               71.41%、44.67%。
             语声随机包含一种噪声,将 5 组信噪比分别设为
             −10 dB、−5 dB、0 dB、5 dB、10 dB 加入测试集,不              4 结论
             同信噪比测试集的识别结果如图7所示。
                 由图 7 可以看出, 本文模型抗噪性能优于                             本文提出将改进的 DRSN 和改进的 GCNN 结
             DRSN-GCNN 模 型、 改 进 DRSN-GCNN 模 型 和                合起来用于电力调度语言识别。通过改进 DRSN
             DRSN-改进 GCNN 模型,优化前后模型均下降缓                        来提取特征,通过堆叠改进 GCNN 来获取有效的
             慢。这是因为模型中的收缩模块可以自适应地学习                            上下文信息。结果表明,所提方法能够提高词谱
   66   67   68   69   70   71   72   73   74   75   76