Page 73 - 201901
P. 73
第 38 卷 第 1 期 苗晓孔等: 采用骨导语音自适应的语句分割方法 69
比,本文分割算法的分割效果获得明显改善。
0 引言
1 改进预处理方法
近些年随着神经网络、机器学习等技术在语音
智能等方面的运用,语音数据库制作也受到关注。
传统的时域参数融合分割方法,在语音预处理
语音数据库可用来帮助训练和改善语音处理算法,
阶段主要是对气导语音进行信号预加重加窗分帧,
为了丰富语音数据库内容,同步录制包含周围环境
通过预处理提升语音信号的信噪比。但是大多数情
噪声的语音数据也逐步得到重视。含噪语音可以用
况下采集到的气导语音信号含有噪声,对受到不同
来检验相关语音算法在不同真实场景中的处理效
噪声影响的气导语音进行分割,需要考虑不同的去
果。而语音分割技术就是将不同情况下的连续语句
噪方法,这使得算法的适应性降低。本文提出在预
进行分割、提取,以制取完备的语音数据库。针对含
处理阶段引入骨导语音,利用骨导语音的低频抗噪
噪语音或者某些低信噪比环境下的语音数据分割,
性来提升算法的适应性,通过对骨导语音简单的噪
高效、鲁棒的分割算法对提升语音转换、语音识别、
声滤波,减少去噪复杂度进而实现鲁棒的端点检测。
语音截取 [1] 等技术的性能将起到一定的作用。
骨导语音是骨导麦克风通过捕捉头骨或喉头
语音分割关键是准确得到语句起始和结束端
振动采集的语音信号,由于其不受空气中的噪声干
点,按其端点检测方式目前语音分割方法大致可分
扰,得到的语音具有很强的抗噪性能。虽然骨导语
三类:(1) 基于特征参数提取的分割方法:主要是提
音本身仍存在有待改善的问题,例如:语音中高频成
取语音信息中的时频特征参数进行端点检测,然后
分较弱,可懂度低等,但是充分利用其较强的抗噪性
分割。时域特征如过零率、短时能量以及自相关函
能,对于改善语音切割效果会起到很大作用。为了
数等 [2−3] ;频域特征主要有梅尔倒谱距离、频率方
验证骨导语音的抗噪性,通过实验得到如图 1 所示
差、LPC以及谱熵等 [4−7] 。这类算法操作简单,便于
结果。
实现,但算法鲁棒性差,在低信噪比环境适应效果不
图1是同步采集语音信号的气导语音与骨导语
理想。(2)基于模型的分割方法:通常是将端点检测
音时域信号图形及其对应帧的频率成分分析图。两
问题转化为分帧问题,分别对噪声和语音进行二分
者在时间和内容上都具有一致性。
类建模,然后检测语音端点并分割。常用模型有隐
马尔科夫模型 (Hidden Markov models, HMM)、支 图 1 中左侧图形均为气导语音的相关图,右侧
持向量机 (Support vector machine, SVM)、深度神 均为骨导语音的相关图。图1(a) 展示了相同语句内
经网络 (Deep neural network, DNN) [8−9] 等。这些 容,气导和骨导的时域图和频率成分图。可以看出,
算法比较复杂,其分割效果取决于模型与环境噪声 该语句内容的气导语音在中高频部分幅度较大,其
的匹配程度,匹配度越高效果越好,所以其依赖性较 保存信息相对较多,而骨导语音在低频部分幅度较
强,适应性较差。(3) 基于一些新理论的方法:运用 大,说明骨导低频部分保存信息相对较多。图 1(b)
混沌理论、分形理论的端点检测分割算法。这些算 展示了在受嘈杂人声背景噪声影响下,气导和骨导
法的运算量大,只适用于一些特殊噪声,具有一定的 分别对应的时域波形和频率成分图。分析图1(b)可
局限性 [10] 。 知,气导语音受噪声干扰后其中高频信息已受到严
针对上述分割算法存在的问题,本文提出了基 重干扰,由频率成分图可知,此时气导语音的低频信
于骨导语音的自适应分段双门限语句分割方法。首 息较强而中高频信息则相对较弱,与图 1(a) 中的气
先利用骨导语音的抗噪性提升时域参数特征融合 导频率成分图产生较大变化。而骨导语音几乎不受
算法鲁棒性 (因骨导语音通过捕获振动源的机械振 外界任何干扰,其频率成分分析图与图 1(a) 中基本
动获取语音,去除了周围环境噪声影响,且骨导设备 保持不变,由此可见骨导语音的抗噪性相对气导更
廉价易得,可操作性强),然后引入随机动态阈值进 加明显。所以在制备语音数据库时,同步录制骨导
行自适应的端点检测,最后通过分段双门限和层聚 语音,在预处理阶段提取骨导语音信号,对其进行去
类的方式实现语音分割。实验证明:本文所提分割 噪处理,可以很大程度上减少外界噪声对算法适应
算法提高了语音分割的精度和准确度,算法适应性 性的干扰。后续在进行端点检测或语音分割时,可
强,鲁棒性好且便于实现。同时与其他几种算法对 提升其检测或分割的适应性。