Page 73 - 201901
P. 73

第 38 卷 第 1 期               苗晓孔等: 采用骨导语音自适应的语句分割方法                                            69


                                                               比,本文分割算法的分割效果获得明显改善。
             0 引言
                                                               1 改进预处理方法
                 近些年随着神经网络、机器学习等技术在语音
             智能等方面的运用,语音数据库制作也受到关注。
                                                                   传统的时域参数融合分割方法,在语音预处理
             语音数据库可用来帮助训练和改善语音处理算法,
                                                               阶段主要是对气导语音进行信号预加重加窗分帧,
             为了丰富语音数据库内容,同步录制包含周围环境
                                                               通过预处理提升语音信号的信噪比。但是大多数情
             噪声的语音数据也逐步得到重视。含噪语音可以用
                                                               况下采集到的气导语音信号含有噪声,对受到不同
             来检验相关语音算法在不同真实场景中的处理效
                                                               噪声影响的气导语音进行分割,需要考虑不同的去
             果。而语音分割技术就是将不同情况下的连续语句
                                                               噪方法,这使得算法的适应性降低。本文提出在预
             进行分割、提取,以制取完备的语音数据库。针对含
                                                               处理阶段引入骨导语音,利用骨导语音的低频抗噪
             噪语音或者某些低信噪比环境下的语音数据分割,
                                                               性来提升算法的适应性,通过对骨导语音简单的噪
             高效、鲁棒的分割算法对提升语音转换、语音识别、
                                                               声滤波,减少去噪复杂度进而实现鲁棒的端点检测。
             语音截取    [1]  等技术的性能将起到一定的作用。
                                                                   骨导语音是骨导麦克风通过捕捉头骨或喉头
                 语音分割关键是准确得到语句起始和结束端
                                                               振动采集的语音信号,由于其不受空气中的噪声干
             点,按其端点检测方式目前语音分割方法大致可分
                                                               扰,得到的语音具有很强的抗噪性能。虽然骨导语
             三类:(1) 基于特征参数提取的分割方法:主要是提
                                                               音本身仍存在有待改善的问题,例如:语音中高频成
             取语音信息中的时频特征参数进行端点检测,然后
                                                               分较弱,可懂度低等,但是充分利用其较强的抗噪性
             分割。时域特征如过零率、短时能量以及自相关函
                                                               能,对于改善语音切割效果会起到很大作用。为了
             数等  [2−3] ;频域特征主要有梅尔倒谱距离、频率方
                                                               验证骨导语音的抗噪性,通过实验得到如图 1 所示
             差、LPC以及谱熵等        [4−7] 。这类算法操作简单,便于
                                                               结果。
             实现,但算法鲁棒性差,在低信噪比环境适应效果不
                                                                   图1是同步采集语音信号的气导语音与骨导语
             理想。(2)基于模型的分割方法:通常是将端点检测
                                                               音时域信号图形及其对应帧的频率成分分析图。两
             问题转化为分帧问题,分别对噪声和语音进行二分
                                                               者在时间和内容上都具有一致性。
             类建模,然后检测语音端点并分割。常用模型有隐
             马尔科夫模型 (Hidden Markov models, HMM)、支                  图 1 中左侧图形均为气导语音的相关图,右侧
             持向量机 (Support vector machine, SVM)、深度神            均为骨导语音的相关图。图1(a) 展示了相同语句内
             经网络 (Deep neural network, DNN)   [8−9]  等。这些      容,气导和骨导的时域图和频率成分图。可以看出,
             算法比较复杂,其分割效果取决于模型与环境噪声                            该语句内容的气导语音在中高频部分幅度较大,其
             的匹配程度,匹配度越高效果越好,所以其依赖性较                           保存信息相对较多,而骨导语音在低频部分幅度较
             强,适应性较差。(3) 基于一些新理论的方法:运用                         大,说明骨导低频部分保存信息相对较多。图 1(b)
             混沌理论、分形理论的端点检测分割算法。这些算                            展示了在受嘈杂人声背景噪声影响下,气导和骨导
             法的运算量大,只适用于一些特殊噪声,具有一定的                           分别对应的时域波形和频率成分图。分析图1(b)可
             局限性   [10] 。                                      知,气导语音受噪声干扰后其中高频信息已受到严
                 针对上述分割算法存在的问题,本文提出了基                          重干扰,由频率成分图可知,此时气导语音的低频信
             于骨导语音的自适应分段双门限语句分割方法。首                            息较强而中高频信息则相对较弱,与图 1(a) 中的气
             先利用骨导语音的抗噪性提升时域参数特征融合                             导频率成分图产生较大变化。而骨导语音几乎不受
             算法鲁棒性 (因骨导语音通过捕获振动源的机械振                           外界任何干扰,其频率成分分析图与图 1(a) 中基本
             动获取语音,去除了周围环境噪声影响,且骨导设备                           保持不变,由此可见骨导语音的抗噪性相对气导更
             廉价易得,可操作性强),然后引入随机动态阈值进                           加明显。所以在制备语音数据库时,同步录制骨导
             行自适应的端点检测,最后通过分段双门限和层聚                            语音,在预处理阶段提取骨导语音信号,对其进行去
             类的方式实现语音分割。实验证明:本文所提分割                            噪处理,可以很大程度上减少外界噪声对算法适应
             算法提高了语音分割的精度和准确度,算法适应性                            性的干扰。后续在进行端点检测或语音分割时,可
             强,鲁棒性好且便于实现。同时与其他几种算法对                            提升其检测或分割的适应性。
   68   69   70   71   72   73   74   75   76   77   78