Page 76 - 201901
P. 76
72 2019 年 1 月
(3) 依次对相邻两个语音片段进行相似度比较, 3.1 本文算法实验效果
如果相似度高 (相似度大于某一阈值) 即合并为一 实验样本语音是选取了 32.00 kHz 的采样和
句,然后将合并后的句子与接下来一句继续进行比 16 bit 量化情况下同步录制真实包含周围嘈杂人声
较,直到其相似度小于阈值。如果第一次比较就小 的语音数据,帧长取 240 采样点,帧移取 80 采样点。
于相似度阈值,则不合并前两句,分别将第一句生成 本文算法的分割效果如图4所示。
单独的语音片段,第二语音片段作为下次比较的第 图 4(a) 是实验中男 8(编号为 8 的男生) 录取包
一个片段,继续比较。 含背景噪声情况下混合双声道的部分语句时域
(4) 重复步骤 (2) 和步骤 (3),当遍历所有语音 波形图。图 4(b) 为分离后气导语音时域波形图,
片段后停止聚类。 图 4(c) 分离后的骨导语音时域波形图。对比图4(b)
和图 4(c) 可以看出,气导语音受到严重干扰,而骨
Ռࣳ2
导语音受外界环境的影响很小,较好地保持了说话
ᄱͫएѼࠀ 人语句起始和终止的位置信息。图4(b)中的黑色竖
线和图 4(c) 红色竖线分别表示本文算法在气导语
Ռࣳ1 ឦԲ3
音和骨导语音上分割出第一句语音的起始和终止
Y
位置。图 4(d)中蓝色部分表示气导情况下截取的第
N
ၷੇឦԲ1 ᄱͫएѼࠀ ĀĀ 一段语音,红色表示骨导情况下截取的第一段语音。
放大提取后的语音片段,可以明显看出,基于骨导语
音的分割更加准确,这也说明骨导语音具有良好的
ឦԲ1 ឦԲ2 ឦԲ2 ឦԲ3 ĀĀ
抗噪性,可以更好地利用这一特点,对含噪语音进行
图 3 语句聚类图 分割和提取。
Fig. 3 Statement clustering 为了更加充分证明实验分割的准确度,对8000
句语音进行切割,其统计结果如表1所示。
聚类过程中一个重要的问题就是相似度判别
方式,大多情况下首先以其两者之间的距离作为度 表 1 本文方法分割后语音的数量和正确率
Table 1 The number and accuracy of the
量。在本文中,采用了欧氏距离 2 范数的方法来进
speech after this method is segmented
行相似度度量,求各个元素的平方求和然后求平方
根。其计算公式如式(3)所示:
男 1∼10 女 1∼10 男 11∼20 女 11∼20
( ) 1/2
n
∑ 2 句子总量 2000 2000 2000 2000
d i = |x i+1 − y i | ,
分割后数量 2043 2018 2022 2035
i=1
2 |y i − x i |
l i = , (3) 正确率 97.5% 98.8% 98.4% 97.8%
3 |y i+1 − x i+1 |
表 1 统计了本文分割算法对 20 名男生和 20 名
式(3) 中,d i 表示第 i 个相邻语音片段之间的欧氏距
女生的分割结果,分割语句的数量并不代表准确率,
离,x i 表示第 i 段语音片段的开头位置,y i 表示第 i
因为分割中出现的误聚类、分割丢失或一句多分等
段语音截止位置,l i 表示另一种对其相似度的判断
情况,正确率计算公式为分割正确数量/分割所得
条件。计算出 d i 和 l i 后分别与阈值比较,阈值设定
总数量。表1 中所给出的正确率为经人工检验分割
则根据实际观测取定值。
语句内容后计算所得。因为在语音库制取过程中,
3 实验结果及对比分析 还存在人为因素,比如语句不流畅、发音不明显等
问题,语句与语句间隔有时甚至不如一句话内部停
为了验证本文所提改进算法的有效性和可行 顿时间长,对于上述情况本文算法仍然无法有效分
性,在 windows 操作系统下的 Matlab 13.0 环境中 割,但是对于受噪声影响的语句则可以有效准确地
进行了实验。实验选取了 20 名男生,20 名女生,每 分割。由表 1 可得其分割正确率比较高。核对数量
人 200 句连续语句作为样本进行分割,共计 8000 个 则相对较少,所以其可以大大减少人工分割的时间,
样本。 提高工作效率。