Page 68 - 《应用声学》2024年第6期
P. 68

1244                                                                                2024 年 11 月


                                                               型和语言模型进行训练,结合字典构成网络空间。
             0 引言
                                                               通过搜索算法找到识别的结果,语言识别系统结构
                 我国双碳目标的全面展开,促使电网朝着能源                          如图1所示。
             互联网转型      [1] 。电力调度是电网稳定运行的基础。
             传统电力调度中语声交互在有多个电话时存在信
             息阻塞,无法满足调度自动化的需求                 [2] 。调度语声
             识别是调度自动化实现的关键技术之一,对其进行                                        ឦᝓ஝૶ः            ஡వ஝૶ः
             研究具有一定的现实意义。
                 目前国内外对语声识别技术进行了大量的研                                       ྲढ़ଢԩ              ឦᝓവ
             究,但该技术在电力调度中应用较少,研究主要集                                                          یᝫጷ
             中在声学模型和语言模型方面               [3−5] 。文献 [6] 提出                   ܦߦവ
             一种用于电力调度语声识别的改进隐马尔可夫模                                          یᝫጷ             ឦᝓവی
             型。所提方法在小规模词汇识别中效果较好,识
                                                                           ܦߦവی      ߚЧ
             别精度达到 95.76%。文献 [7] 提出一种结合深度神
             经网络和隐马尔可夫模型的电力调度语声识别方                                           ឦܦᝍᆊ֗ଽጊካข
             法。所提方法具有较好的识别效果,识别精度达到
                                                                         ྲढ़ଢԩ            ஡వᣥѣ
             94.63%。文献 [8] 提出一种结合改进动态时间调度
             算法和改进隐马尔可夫模型的电力调度语声识别                                       ឦᝓᣥК
             法方法。所提方法具有较好的降噪效果,且识别准
                                                                            图 1  语声识别系统结构
             确性较高。文献 [9] 提出一种深度神经网络用于电
                                                                   Fig. 1 Structure of speech recognition system
             力调度系统语声识别模型。所提方法在多种方言特
             征中具有较好的识别效果,准确性较高,非常适合                                (1) 特征提取:从输入的语言信号中提取声音
             电网调度语声交互。为了提高电力调度语声的识别                            特征,对声学模型进行训练            [12] 。
             准确率,文献 [10] 提出一种基于深度卷积生成对抗                            (2) 声学模型:对特征提取的声学特征进行解
             性网络的电力调度语声交互模型。结果表明,相比                            析,本文主要对声学模型进行了研究                 [13] 。
             于常规方法,所提方法在不同数据集识别中具有较                                (3) 语言模型:表征词汇间的概率统计,可以区
             高的识别准确率。为了提高传统声纹识别方法的准                            分相同发音时的识别结果            [14] 。
             确性,文献 [11] 提出一种改进的深度残差收缩网络                            (4) 字典:将词或发声连接声学模型和语言模
             (Deep residual shrinkage networks, DRSN)用于电       型 [15] 。
             力调度语声识别。结果表明,所提方法可以有效降                                (5) 搜索解码:根据声学模型,结合语言模型和
             低噪声影响,具有较高的语声识别准确性。截至目                            字典找到最有可能的识别结果               [16] 。
             前,人工智能相关方法已初步应用于电力系统语声
             识别领域,但上述语声识别的准确性和参数量有待                            2 声学模型
             进一步优化。
                 在此基础上,本文将改进的 DRSN 和改进的门                           本文提出一种声学模型,将改进的 DRSN 和改
             控卷积神经网络 (Gated convolutional neural net-          进的GCNN相结合,通过改进的 DRSN提取有效特
             work, GCNN)结合起来用于电力调度语言识别。改                       征,再通过堆叠改进的 GCNN来获取有效上下文信
             进的 DRSN 提取有效特征,然后通过堆叠改进的                          息。结合改进 DRSN 和改进 GCNN 用于电力调度
             GCNN来获取有效上下文信息。通过试验验证了所                           语言识别,最后进行训练(CTC函数)               [17−19] 。图2所
             提方法的优越性。                                          示本文声学模型整体构成。
                                                               2.1  改进DRSN
             1 语声识别技术概述
                                                                   DRSN 是一种人工智能方法,本质上 DRSN 由
                 语声识别主要由四部分组成:声学模型、语言                          三部分组成 ——深度残差网络、注意力机制和软阈
             模型、解码模块和特征提取。通过数据库对声学模                            值函数    [20−22] 。本文将 DRSN 应用于语声识别,去
   63   64   65   66   67   68   69   70   71   72   73