Page 70 - 《应用声学》2024年第6期
P. 70
1246 2024 年 11 月
式 (2) 中,R、I、D 分别为替换、插入、删除的错误字
ʷ፥ງएԻѬ 数;N 为总字数。
ሏԄሥ
表 2 试验参数
᫃ጳভӭЋ Table 2 Experimental parameters
ҒᯠᇸፃᎪፏ
参数 数值
输入特征 语谱图
ᬤܿำ
时间窗宽度 25 ms
窗移 10 ms
初始学习率 0.0001
图 5 改进 GCNN
Fig. 5 Improved GCNN 批量大小 8
优化器 Adam
3 试验结果与分析
3.2 试验分析
3.1 试验参数 为了验证所提语声识别方法在优化前后的有
为了验证所提识别方法的优越性,在 Python 效性,将本文模型与 DRSN-GCNN、改进 DRSN-
环境下基于 Tensorflow 深度学习框架进行了试验, GCNN 和 DRSN-改进 GCNN 三个优化前模型进行
表1为系统参数。 了比较分析。不同模型的CER如表3所示。
表 1 系统参数
Table 1 System parameters 表 3 不同模型的 CER
Table 3 CER of different models
配置 参数
模型 训练集 CER/% 测试集 CER/%
CPU I7-9750H
本文方法 2.58 2.87
深度学习框架 Tensorflow2.3
操作系统 Ubuntu 17.10 DRSN-GCNN 10.21 10.90
GPU RTX2080Ti 改进 DRSN-GCNN 6.81 7.70
编程语言 Python3.8 DRSN-改进 GCNN 4.51 5.21
为了验证模型在真实场景中的性能,采用了某
由表 3 可以看出, 无论是训练集还是测试
供电公司真实场景中 50000条调度语声数据作为试
集,本文模型的 CER 都是最低的,分别为 2.58%
验数据集。
和 2.87%。通过比较 DRSN-GCNN、改进 DRSN-
在安静环境下采用传声器进行录制,录制人员
GCNN 和 DRSN-改进 GCNN 的试验。验证了增加
为 10 名普通话标准的大学生,采用频率为 16 kHz。
前馈神经网络层的有效性,使模型具有较强的表达
将数据集划分为训练集和测试集,训练集、验证集
能力。表明本文方法可以更好地提高词谱图的特征
和测试集的比值为 4 : 1 : 1 [31] 。电力调度语声识别
学习能力和捕捉有效上下文信息能力。
中很多指令 (如变电站名和线路名等) 与常规语声
为了验证模型受改进 GCNN 层数的影响程度,
识别词汇不同,出现的频率也较低,无法有效利用上
将改进 GCNN 层数分别设定为 8、9、10、11、12、13、
下文信息,在电力调度语声识别的准确率较低。本
14。不同改进 GCNN 层数本文模型的语声识别结
文通过波束搜索进行解码,采用文献 [32] 的 BERT
果如图6所示。
语言模型,试验参数如表2所示。
从图 6 可以看出, 随着 GCNN 层数的增加,
不同的指标通常会产生不同的评价结果,因此
CER 先降低在升高,层数为 10 时,无论是训练
需要选择有效的指标进行评价。本文选择字错误率
集还是测试集,CER 都为最低,分别为 2.58% 和
(Character error rate, CER) 对结果进行评价,如
2.87%;层数少时,模型的表现能力弱导致泛化能
式 (2)所示 [33] :
力很弱。如果 GCNN 层数较多,则由于训练数据较
R + I + D
CER = × 100%, (2) 少,模型可能欠拟合。这是因为 GCNN 存储信息容
N