Page 70 - 《应用声学》2024年第6期
P. 70

1246                                                                                2024 年 11 月


                                                               式 (2) 中,R、I、D 分别为替换、插入、删除的错误字
                               ʷ፥ງएԻѬ                          数;N 为总字数。
                                 ሏԄሥ
                                                                               表 2   试验参数
                               ᫃଍ጳভӭЋ                                 Table 2 Experimental parameters

                               ҒᯠᇸፃᎪፏ
                                                                             参数               数值
                                                                           输入特征              语谱图
                                 ᬤ఻ܿำ
                                                                          时间窗宽度               25 ms
                                                                             窗移               10 ms
                                                                          初始学习率              0.0001
                            图 5  改进 GCNN
                         Fig. 5 Improved GCNN                              批量大小                8
                                                                            优化器               Adam
             3 试验结果与分析
                                                               3.2  试验分析
             3.1 试验参数                                              为了验证所提语声识别方法在优化前后的有
                 为了验证所提识别方法的优越性,在 Python                       效性,将本文模型与 DRSN-GCNN、改进 DRSN-
             环境下基于 Tensorflow 深度学习框架进行了试验,                      GCNN 和 DRSN-改进 GCNN 三个优化前模型进行
             表1为系统参数。                                          了比较分析。不同模型的CER如表3所示。
                             表 1  系统参数
                      Table 1 System parameters                             表 3   不同模型的 CER
                                                                      Table 3 CER of different models
                         配置                参数
                                                                      模型          训练集 CER/%     测试集 CER/%
                         CPU             I7-9750H
                                                                     本文方法             2.58           2.87
                      深度学习框架            Tensorflow2.3
                        操作系统            Ubuntu 17.10               DRSN-GCNN          10.21         10.90
                         GPU            RTX2080Ti                改进 DRSN-GCNN         6.81           7.70
                        编程语言             Python3.8               DRSN-改进 GCNN         4.51           5.21
                 为了验证模型在真实场景中的性能,采用了某
                                                                   由表 3 可以看出, 无论是训练集还是测试
             供电公司真实场景中 50000条调度语声数据作为试
                                                               集,本文模型的 CER 都是最低的,分别为 2.58%
             验数据集。
                                                               和 2.87%。通过比较 DRSN-GCNN、改进 DRSN-
                 在安静环境下采用传声器进行录制,录制人员
                                                               GCNN 和 DRSN-改进 GCNN 的试验。验证了增加
             为 10 名普通话标准的大学生,采用频率为 16 kHz。
                                                               前馈神经网络层的有效性,使模型具有较强的表达
             将数据集划分为训练集和测试集,训练集、验证集
                                                               能力。表明本文方法可以更好地提高词谱图的特征
             和测试集的比值为 4 : 1 : 1      [31] 。电力调度语声识别
                                                               学习能力和捕捉有效上下文信息能力。
             中很多指令 (如变电站名和线路名等) 与常规语声
                                                                   为了验证模型受改进 GCNN 层数的影响程度,
             识别词汇不同,出现的频率也较低,无法有效利用上
                                                               将改进 GCNN 层数分别设定为 8、9、10、11、12、13、
             下文信息,在电力调度语声识别的准确率较低。本
                                                               14。不同改进 GCNN 层数本文模型的语声识别结
             文通过波束搜索进行解码,采用文献 [32] 的 BERT
                                                               果如图6所示。
             语言模型,试验参数如表2所示。
                                                                   从图 6 可以看出, 随着 GCNN 层数的增加,
                 不同的指标通常会产生不同的评价结果,因此
                                                               CER 先降低在升高,层数为 10 时,无论是训练
             需要选择有效的指标进行评价。本文选择字错误率
                                                               集还是测试集,CER 都为最低,分别为 2.58% 和
             (Character error rate, CER) 对结果进行评价,如
                                                               2.87%;层数少时,模型的表现能力弱导致泛化能
             式 (2)所示  [33] :
                                                               力很弱。如果 GCNN 层数较多,则由于训练数据较
                              R + I + D
                       CER =            × 100%,         (2)    少,模型可能欠拟合。这是因为 GCNN 存储信息容
                                  N
   65   66   67   68   69   70   71   72   73   74   75