Page 149 - 《应用声学》2025年第2期
P. 149

第 44 卷 第 2 期               王嘉文等: 藏语语声识别声学模型建模单元研究                                           409


                                            表 5  基于拉丁音素建模单元的标签示例
                           Table 5 Example of labeling modeling units based on Latin phonemes

                    类别                                         例文
                    原文                                       ང་གོའི་བོད་ ོངས་ ་བའི།
                   拉丁音素 <sos> zh u ng <word> k oe <word> p oe <word> j o ng <word> ch a <word> p ae <word> <eos>



                 拉丁音节是由音素组合发音的语声单位。基于                          好地学习到数据的特征表示,而不需要人工设计特
             拉丁音节的建模方法很好地与语声模型进行结合,                            征算子。模型可以通过神经网络的方式自动学习到
             本文在基于拉丁音素的建模方法上将每个藏字音                             合适的特征。
             节转换后的音素组合,由于拉丁音节代表一个藏字                                本文的目的是探讨不同的建模单元对语声
             音节的发音本身具有约束信息,故不在其后添加标                            识别声学模型的影响。为此,采用了一种端到端
             签。基于拉丁音节建模单元的标签示例如表6所示。                           的声学模型,并使其应用于藏语数据。该模型
                                                               为 Conformer-FC-CTC 模型,由多个 Conformer 模
                   表 6  基于拉丁音节建模单元的标签示例
                                                               块 [30]  堆叠而成,并在最后一层使用线性层进行分
                Table 6   Example of labeling modeling
                units based on Latin syllables                 类。针对藏语语声识别的任务,根据不同的实验设
                                                               置,调整模型的输出类别数。具体来说,本文将声频
                  类别                  例文
                                                               的梅尔频谱图 (Mel-Spectrogram) 经过下采样输入
                  原文                ང་གོའི་བོད་ ོངས་ ་བའི།     到 16 个 encoder_dim 为 144 的 Conformer 块中,这
                拉丁音素 <sos> zhung koe poe jong cha pae <eos>    些块是串行连接的。然后,将最后一个 Conformer

                                                               块的输出维数映射到标签类别数,并将预测结果和
                 对于藏语三大方言,基于拉丁音素与拉丁音节
                                                               真实标签输入到 CTCLoss 中进行损失计算。与现
             的建模单元种类如表 7 所示,两者的种类构成参考
                                                               有的研究相比,模型的网络结构更深,能够提取更多
             第1.1节。
                                                               层次的特征;同时,使用自注意力和卷积的混合模
                    表 7   基于拉丁的建模单元种类个数                        块,能够同时捕捉全局信息和局部相关性。模型框
                Table 7 Number of modeling unit types
                                                               架如图 3所示。
                based on Latin

                                                                                                   ጳ
                   建模单元          藏语方言         种类个数                                  Conformer
                                                                 Melᮠ៨ڏ    ʾ᧔ನࡏ             T16    ভ      CTCLoss
                                                                                      വڱ
                                  卫藏             45                                                ࡏ
                   拉丁音素           安多             62
                                                                               图 3  模型框架图
                                  康巴             62
                                                                        Fig. 3 Model framework diagram
                                  卫藏            710
                   拉丁音节           安多            763                Conformer模块中具体计算过程公式如下:
                                  康巴            785                            1
                                                                      ¯ v i = v i + FFN(v i ),            (1)
                                                                               2
             1.3 基于注意力机制的深度卷积藏语语声识别声                                  v = ¯v i + Conv(¯v i ),             (2)
                                                                       ′
                                                                       i
                  学模型
                                                                                       ′
                                                                            ′
                                                                       ′′
                                                                      v = v + MHSA(v ),                   (3)
                                                                       i
                                                                                       i
                                                                            i
                 目前,基于神经网络的端到端自动语声识别                                                 (     1        )
                                                                                       ′′
                                                                                                  ′′
                                                                      u i = Layernorm v + FFN(v ) ,       (4)
             (Automatic speech recognition, ASR) 技术已经取                                 i   2      i
             得了显著的进步        [28−29] 。端到端的学习意味着模型               其中,v i 为模块输入数据,u i 为模块输出数据,
             不仅负责识别任务,还负责从原始数据或者稍加预                            MHSA 为多头自注意力机制层             [31] ,Conv 为卷积层,
             处理的数据中提取特征。这样,神经网络就能够更                            FFN为前馈神经网络,Layernorm为归一化层。
   144   145   146   147   148   149   150   151   152   153   154