Page 73 - 201901

P. 73

第 38 卷第 1 期苗晓孔等：采用骨导语音自适应的语句分割方法 69

比，本文分割算法的分割效果获得明显改善。
0 引言
1 改进预处理方法
近些年随着神经网络、机器学习等技术在语音
智能等方面的运用，语音数据库制作也受到关注。
传统的时域参数融合分割方法，在语音预处理
语音数据库可用来帮助训练和改善语音处理算法，
阶段主要是对气导语音进行信号预加重加窗分帧，
为了丰富语音数据库内容，同步录制包含周围环境
通过预处理提升语音信号的信噪比。但是大多数情
噪声的语音数据也逐步得到重视。含噪语音可以用
况下采集到的气导语音信号含有噪声，对受到不同
来检验相关语音算法在不同真实场景中的处理效
噪声影响的气导语音进行分割，需要考虑不同的去
果。而语音分割技术就是将不同情况下的连续语句
噪方法，这使得算法的适应性降低。本文提出在预
进行分割、提取，以制取完备的语音数据库。针对含
处理阶段引入骨导语音，利用骨导语音的低频抗噪
噪语音或者某些低信噪比环境下的语音数据分割，
性来提升算法的适应性，通过对骨导语音简单的噪
高效、鲁棒的分割算法对提升语音转换、语音识别、
声滤波，减少去噪复杂度进而实现鲁棒的端点检测。
语音截取 [1] 等技术的性能将起到一定的作用。
骨导语音是骨导麦克风通过捕捉头骨或喉头
语音分割关键是准确得到语句起始和结束端
振动采集的语音信号，由于其不受空气中的噪声干
点，按其端点检测方式目前语音分割方法大致可分
扰，得到的语音具有很强的抗噪性能。虽然骨导语
三类：(1) 基于特征参数提取的分割方法：主要是提
音本身仍存在有待改善的问题，例如：语音中高频成
取语音信息中的时频特征参数进行端点检测，然后
分较弱，可懂度低等，但是充分利用其较强的抗噪性
分割。时域特征如过零率、短时能量以及自相关函
能，对于改善语音切割效果会起到很大作用。为了
数等 [2−3] ；频域特征主要有梅尔倒谱距离、频率方
验证骨导语音的抗噪性，通过实验得到如图 1 所示
差、LPC以及谱熵等 [4−7] 。这类算法操作简单，便于
结果。
实现，但算法鲁棒性差，在低信噪比环境适应效果不
图1是同步采集语音信号的气导语音与骨导语
理想。(2)基于模型的分割方法：通常是将端点检测
音时域信号图形及其对应帧的频率成分分析图。两
问题转化为分帧问题，分别对噪声和语音进行二分
者在时间和内容上都具有一致性。
类建模，然后检测语音端点并分割。常用模型有隐
马尔科夫模型 (Hidden Markov models, HMM)、支图 1 中左侧图形均为气导语音的相关图，右侧
持向量机 (Support vector machine, SVM)、深度神均为骨导语音的相关图。图1(a) 展示了相同语句内
经网络 (Deep neural network, DNN) [8−9] 等。这些容，气导和骨导的时域图和频率成分图。可以看出，
算法比较复杂，其分割效果取决于模型与环境噪声该语句内容的气导语音在中高频部分幅度较大，其
的匹配程度，匹配度越高效果越好，所以其依赖性较保存信息相对较多，而骨导语音在低频部分幅度较
强，适应性较差。(3) 基于一些新理论的方法：运用大，说明骨导低频部分保存信息相对较多。图 1(b)
混沌理论、分形理论的端点检测分割算法。这些算展示了在受嘈杂人声背景噪声影响下，气导和骨导
法的运算量大，只适用于一些特殊噪声，具有一定的分别对应的时域波形和频率成分图。分析图1(b)可
局限性 [10] 。知，气导语音受噪声干扰后其中高频信息已受到严
针对上述分割算法存在的问题，本文提出了基重干扰，由频率成分图可知，此时气导语音的低频信
于骨导语音的自适应分段双门限语句分割方法。首息较强而中高频信息则相对较弱，与图 1(a) 中的气
先利用骨导语音的抗噪性提升时域参数特征融合导频率成分图产生较大变化。而骨导语音几乎不受
算法鲁棒性 (因骨导语音通过捕获振动源的机械振外界任何干扰，其频率成分分析图与图 1(a) 中基本
动获取语音，去除了周围环境噪声影响，且骨导设备保持不变，由此可见骨导语音的抗噪性相对气导更
廉价易得，可操作性强)，然后引入随机动态阈值进加明显。所以在制备语音数据库时，同步录制骨导
行自适应的端点检测，最后通过分段双门限和层聚语音，在预处理阶段提取骨导语音信号，对其进行去
类的方式实现语音分割。实验证明：本文所提分割噪处理，可以很大程度上减少外界噪声对算法适应
算法提高了语音分割的精度和准确度，算法适应性性的干扰。后续在进行端点检测或语音分割时，可
强，鲁棒性好且便于实现。同时与其他几种算法对提升其检测或分割的适应性。

68 69 70 71 72 73 74 75 76 77 78