Page 76 - 201901
P. 76

72                                                                                   2019 年 1 月


                 (3) 依次对相邻两个语音片段进行相似度比较,                       3.1  本文算法实验效果
             如果相似度高 (相似度大于某一阈值) 即合并为一                              实验样本语音是选取了 32.00 kHz 的采样和
             句,然后将合并后的句子与接下来一句继续进行比                            16 bit 量化情况下同步录制真实包含周围嘈杂人声
             较,直到其相似度小于阈值。如果第一次比较就小                            的语音数据,帧长取 240 采样点,帧移取 80 采样点。
             于相似度阈值,则不合并前两句,分别将第一句生成                           本文算法的分割效果如图4所示。
             单独的语音片段,第二语音片段作为下次比较的第                                图 4(a) 是实验中男 8(编号为 8 的男生) 录取包
             一个片段,继续比较。                                        含背景噪声情况下混合双声道的部分语句时域
                 (4) 重复步骤 (2) 和步骤 (3),当遍历所有语音                  波形图。图 4(b) 为分离后气导语音时域波形图,
             片段后停止聚类。                                          图 4(c) 分离后的骨导语音时域波形图。对比图4(b)
                                                               和图 4(c) 可以看出,气导语音受到严重干扰,而骨
                                   Ռࣳ2
                                                               导语音受外界环境的影响很小,较好地保持了说话
                                 ᄱͫएѼࠀ                         人语句起始和终止的位置信息。图4(b)中的黑色竖
                                                               线和图 4(c) 红色竖线分别表示本文算法在气导语
                            Ռࣳ1           ឦԲ3
                                                               音和骨导语音上分割出第一句语音的起始和终止
                              Y
                                                               位置。图 4(d)中蓝色部分表示气导情况下截取的第
                       N
              ၷੇឦԲ1       ᄱͫएѼࠀ            ĀĀ                  一段语音,红色表示骨导情况下截取的第一段语音。
                                                               放大提取后的语音片段,可以明显看出,基于骨导语
                                                               音的分割更加准确,这也说明骨导语音具有良好的
                       ឦԲ1       ឦԲ2      ឦԲ2    ឦԲ3   ĀĀ
                                                               抗噪性,可以更好地利用这一特点,对含噪语音进行
                             图 3  语句聚类图                        分割和提取。
                        Fig. 3 Statement clustering                为了更加充分证明实验分割的准确度,对8000
                                                               句语音进行切割,其统计结果如表1所示。
                 聚类过程中一个重要的问题就是相似度判别
             方式,大多情况下首先以其两者之间的距离作为度                                 表 1   本文方法分割后语音的数量和正确率
                                                                  Table 1 The number and accuracy of the
             量。在本文中,采用了欧氏距离 2 范数的方法来进
                                                                  speech after this method is segmented
             行相似度度量,求各个元素的平方求和然后求平方
             根。其计算公式如式(3)所示:
                                                                           男 1∼10   女 1∼10  男 11∼20  女 11∼20
                            (              ) 1/2
                              n
                             ∑            2                       句子总量       2000    2000    2000     2000
                       d i =     |x i+1 − y i |  ,
                                                                 分割后数量       2043    2018    2022     2035
                              i=1
                            2  |y i − x i |
                       l i =             ,              (3)        正确率      97.5%   98.8%    98.4%    97.8%
                            3 |y i+1 − x i+1 |
                                                                   表 1 统计了本文分割算法对 20 名男生和 20 名
             式(3) 中,d i 表示第 i 个相邻语音片段之间的欧氏距
                                                               女生的分割结果,分割语句的数量并不代表准确率,
             离,x i 表示第 i 段语音片段的开头位置,y i 表示第 i
                                                               因为分割中出现的误聚类、分割丢失或一句多分等
             段语音截止位置,l i 表示另一种对其相似度的判断
                                                               情况,正确率计算公式为分割正确数量/分割所得
             条件。计算出 d i 和 l i 后分别与阈值比较,阈值设定
                                                               总数量。表1 中所给出的正确率为经人工检验分割
             则根据实际观测取定值。
                                                               语句内容后计算所得。因为在语音库制取过程中,
             3 实验结果及对比分析                                       还存在人为因素,比如语句不流畅、发音不明显等
                                                               问题,语句与语句间隔有时甚至不如一句话内部停
                 为了验证本文所提改进算法的有效性和可行                           顿时间长,对于上述情况本文算法仍然无法有效分
             性,在 windows 操作系统下的 Matlab 13.0 环境中                割,但是对于受噪声影响的语句则可以有效准确地
             进行了实验。实验选取了 20 名男生,20 名女生,每                       分割。由表 1 可得其分割正确率比较高。核对数量
             人 200 句连续语句作为样本进行分割,共计 8000 个                     则相对较少,所以其可以大大减少人工分割的时间,
             样本。                                               提高工作效率。
   71   72   73   74   75   76   77   78   79   80   81