Page 83 - 201903
P. 83

第 38 卷 第 3 期            杨俊杰等: 音强斜率特性区别同卵双胞胎语音的实验研究                                          365


                                                               对时长仍无法识别的 13 对同卵双胞胎语音进行研
             0 引言
                                                               究 (发音人 16 女 10 男,年龄范围 11∼40 岁,平均年
                 在司法话者识别领域,语音的个体特殊性一直                          龄21.3岁,年龄标准差为 8.2,均无语言及听觉障碍,
             是各位学者所追寻的。作为语音四要素的重要内                             每对双胞胎从小到大一直在一起生活;每人朗读声
             容  [1] ,音强与时长特性近年来更是受到国内外专家                       样 5 遍,语音为普通话或略带口音的普通话;采样
             的高度关注。对于音强,其强弱与人说话时的开口                            率为16 kHz,单声道),分析语句为包含 ta qu wu xi
             度密切相关      [2−3] 。先前研究表明,普通人群音强曲                  shi chu chai,wo dao hei long jiang jian cha gong
             线在曲率分布、拐点数与分布、极值数与分布、极                            zuo(他去无锡市出差,我到黑龙江检查工作) 共 16
             值特征、音节间过渡特征等方面具有总体特殊性                      [4] ,  个音节的两句话。
             在韵母音强随时间的分布状态               [5]  和音节间音强关
                                                               1.2  音强曲线及其峰谷的提取
             系等方面也具有个体特殊性             [6−7] 。即使是发音器官
                                                                   语音分析设备为北京阳宸电子技术公司生
             高度相似的同卵双胞胎语音,其音强特性也具有一
                                                               产的 IV-12 智能语音工作站 (10.0 版)。音强的计算
             定的个体特殊性        [8−10] 。对于时长,Ulrike等   [11]  指出
                                                               步骤为
             “· · · · · · 即使话者自身变异较大,不同说话人元音、
                                                                   (1)分帧:帧移(步长)为10 ms,帧长20 ms。
             辅音、浊音或峰间的时长差异仍然非常明显”。
                                                                   (2)加窗:类型为汉明窗。
                 杨俊杰等     [10]  曾对利用音节间相对音强与相对
                                                                   (3) 音强计算:根据公式 (1) 对每帧能量进行计
             时长鉴别同卵双胞胎语音进行了研究。结果发现,
                                                               算,以得到音强级别(dB)。
             在30对同卵双胞胎语音中,单独利用音节间相对音
                                                                                   (    N    )
             强时,有 19 对无法区别开;单独利用音节间相对时                                         1     1  ∑
                                                                         E f =   lg        x 2 n  + 1,    (1)
             长时,有20 对无法区别开;综合利用二者进行检验,                                        10     N
                                                                                       n=1
             结果仍有13对无法区别开。
                                                               其中,E f 为第 f 帧能量,N 为每帧采样点数,x n 为
                 近年来,有学者把音强与时长二维参量联合起
                                                               帧内第n点的振幅值。
             来进行话者识别的研究           [9,11] 。其中,Ulrike 等  [11]  的
                                                                   (4) 平滑:应用 5 阶中值滤波 (式 (2)) 与 5 阶线
             研究发现,单独用音强或音强与时长联合检验的
                                                               性滤波(式(3))对音强曲线进行后平滑处理,进而得
             区别力均强于单独利用时长的区别力。尤其是 Lei
                                                               到音强曲线。
             等  [9]  在研究了普通个体连续语音音强的动态特性                               
             后发现,音节音强的下降斜率比上升斜率更具有个                                    x k−  n−1 :k+ n−1 的中值, n为奇数,
                                                                       
                                                                  y k =       2     2                     (2)
             体特殊性,音强曲线斜率特性可能对话者自动识别,
                                                                       
                                                                        x k− :k+ −1 的中值,      n为偶数,
                                                                                 n
                                                                             n
             特别是司法话者识别具有重要价值。这些结果启发                                          2   2
             我们利用音强斜率的动态特性进行了同卵双胞胎                                y k = 0.0833x k−2 + 0.2500x k−1 + 0.3333x k
             语音的话者识别研究。实验研究中,针对 13 对同卵                                 + 0.2500x k+1 + 0.0833x k+2 .      (3)
             双胞胎的由16 个音节组成的声样,分别分析了每个
                                                                   音节音强的峰值 (I P ) 是音节区间内音强的最
             音节音强的上升斜率和下降斜率。数据的统计分析
                                                               大值,音节音强的谷值 (I T ) 是相邻音强峰值间的
             结果表明:在 90% 的置信度下,实验中的 13 对同卵
                                                               音强最小值 (图 1),可以通过 IV-12 智能语音工作
             双胞胎语音都得到正确的区分,佐证并发展了 Lei
                                                               站 (10.0 版) 将对应区间音强数据输出到 Excel 后,
             等  [9]  的研究结论,为识别同卵双胞胎发音人提供了
                                                               分别利用自动求最大值与最小值函数求得。
             有效声学参量。
                                                               1.3  音节音强斜率的计算
             1 研究语料与方法                                             音强斜率的计算如图 1 所示,在音强曲线上分

                                                               别找出每个音节的峰值 (I P )、谷值 (I T ) 及其在时间
             1.1 语料
                                                               轴上的对应点时间(t T 、t P )。然后根据公式
                 为了保证实验结果的可比性,该实验使用杨俊
             杰等  [10]  曾经使用过的,利用音节间相对音强与相                                 S + = (I P − I T )/(t P − t T ),  (4)
   78   79   80   81   82   83   84   85   86   87   88