Page 149 - 《应用声学》2025年第2期
P. 149
第 44 卷 第 2 期 王嘉文等: 藏语语声识别声学模型建模单元研究 409
表 5 基于拉丁音素建模单元的标签示例
Table 5 Example of labeling modeling units based on Latin phonemes
类别 例文
原文 ང་གོའི་བོད་ ོངས་ ་བའི།
拉丁音素 <sos> zh u ng <word> k oe <word> p oe <word> j o ng <word> ch a <word> p ae <word> <eos>
拉丁音节是由音素组合发音的语声单位。基于 好地学习到数据的特征表示,而不需要人工设计特
拉丁音节的建模方法很好地与语声模型进行结合, 征算子。模型可以通过神经网络的方式自动学习到
本文在基于拉丁音素的建模方法上将每个藏字音 合适的特征。
节转换后的音素组合,由于拉丁音节代表一个藏字 本文的目的是探讨不同的建模单元对语声
音节的发音本身具有约束信息,故不在其后添加标 识别声学模型的影响。为此,采用了一种端到端
签。基于拉丁音节建模单元的标签示例如表6所示。 的声学模型,并使其应用于藏语数据。该模型
为 Conformer-FC-CTC 模型,由多个 Conformer 模
表 6 基于拉丁音节建模单元的标签示例
块 [30] 堆叠而成,并在最后一层使用线性层进行分
Table 6 Example of labeling modeling
units based on Latin syllables 类。针对藏语语声识别的任务,根据不同的实验设
置,调整模型的输出类别数。具体来说,本文将声频
类别 例文
的梅尔频谱图 (Mel-Spectrogram) 经过下采样输入
原文 ང་གོའི་བོད་ ོངས་ ་བའི། 到 16 个 encoder_dim 为 144 的 Conformer 块中,这
拉丁音素 <sos> zhung koe poe jong cha pae <eos> 些块是串行连接的。然后,将最后一个 Conformer
块的输出维数映射到标签类别数,并将预测结果和
对于藏语三大方言,基于拉丁音素与拉丁音节
真实标签输入到 CTCLoss 中进行损失计算。与现
的建模单元种类如表 7 所示,两者的种类构成参考
有的研究相比,模型的网络结构更深,能够提取更多
第1.1节。
层次的特征;同时,使用自注意力和卷积的混合模
表 7 基于拉丁的建模单元种类个数 块,能够同时捕捉全局信息和局部相关性。模型框
Table 7 Number of modeling unit types
架如图 3所示。
based on Latin
ጳ
建模单元 藏语方言 种类个数 Conformer
Melᮠ៨ڏ ʾ᧔ನࡏ T16 ভ CTCLoss
വڱ
卫藏 45 ࡏ
拉丁音素 安多 62
图 3 模型框架图
康巴 62
Fig. 3 Model framework diagram
卫藏 710
拉丁音节 安多 763 Conformer模块中具体计算过程公式如下:
康巴 785 1
¯ v i = v i + FFN(v i ), (1)
2
1.3 基于注意力机制的深度卷积藏语语声识别声 v = ¯v i + Conv(¯v i ), (2)
′
i
学模型
′
′
′′
v = v + MHSA(v ), (3)
i
i
i
目前,基于神经网络的端到端自动语声识别 ( 1 )
′′
′′
u i = Layernorm v + FFN(v ) , (4)
(Automatic speech recognition, ASR) 技术已经取 i 2 i
得了显著的进步 [28−29] 。端到端的学习意味着模型 其中,v i 为模块输入数据,u i 为模块输出数据,
不仅负责识别任务,还负责从原始数据或者稍加预 MHSA 为多头自注意力机制层 [31] ,Conv 为卷积层,
处理的数据中提取特征。这样,神经网络就能够更 FFN为前馈神经网络,Layernorm为归一化层。