Page 83 - 201903
P. 83
第 38 卷 第 3 期 杨俊杰等: 音强斜率特性区别同卵双胞胎语音的实验研究 365
对时长仍无法识别的 13 对同卵双胞胎语音进行研
0 引言
究 (发音人 16 女 10 男,年龄范围 11∼40 岁,平均年
在司法话者识别领域,语音的个体特殊性一直 龄21.3岁,年龄标准差为 8.2,均无语言及听觉障碍,
是各位学者所追寻的。作为语音四要素的重要内 每对双胞胎从小到大一直在一起生活;每人朗读声
容 [1] ,音强与时长特性近年来更是受到国内外专家 样 5 遍,语音为普通话或略带口音的普通话;采样
的高度关注。对于音强,其强弱与人说话时的开口 率为16 kHz,单声道),分析语句为包含 ta qu wu xi
度密切相关 [2−3] 。先前研究表明,普通人群音强曲 shi chu chai,wo dao hei long jiang jian cha gong
线在曲率分布、拐点数与分布、极值数与分布、极 zuo(他去无锡市出差,我到黑龙江检查工作) 共 16
值特征、音节间过渡特征等方面具有总体特殊性 [4] , 个音节的两句话。
在韵母音强随时间的分布状态 [5] 和音节间音强关
1.2 音强曲线及其峰谷的提取
系等方面也具有个体特殊性 [6−7] 。即使是发音器官
语音分析设备为北京阳宸电子技术公司生
高度相似的同卵双胞胎语音,其音强特性也具有一
产的 IV-12 智能语音工作站 (10.0 版)。音强的计算
定的个体特殊性 [8−10] 。对于时长,Ulrike等 [11] 指出
步骤为
“· · · · · · 即使话者自身变异较大,不同说话人元音、
(1)分帧:帧移(步长)为10 ms,帧长20 ms。
辅音、浊音或峰间的时长差异仍然非常明显”。
(2)加窗:类型为汉明窗。
杨俊杰等 [10] 曾对利用音节间相对音强与相对
(3) 音强计算:根据公式 (1) 对每帧能量进行计
时长鉴别同卵双胞胎语音进行了研究。结果发现,
算,以得到音强级别(dB)。
在30对同卵双胞胎语音中,单独利用音节间相对音
( N )
强时,有 19 对无法区别开;单独利用音节间相对时 1 1 ∑
E f = lg x 2 n + 1, (1)
长时,有20 对无法区别开;综合利用二者进行检验, 10 N
n=1
结果仍有13对无法区别开。
其中,E f 为第 f 帧能量,N 为每帧采样点数,x n 为
近年来,有学者把音强与时长二维参量联合起
帧内第n点的振幅值。
来进行话者识别的研究 [9,11] 。其中,Ulrike 等 [11] 的
(4) 平滑:应用 5 阶中值滤波 (式 (2)) 与 5 阶线
研究发现,单独用音强或音强与时长联合检验的
性滤波(式(3))对音强曲线进行后平滑处理,进而得
区别力均强于单独利用时长的区别力。尤其是 Lei
到音强曲线。
等 [9] 在研究了普通个体连续语音音强的动态特性
后发现,音节音强的下降斜率比上升斜率更具有个 x k− n−1 :k+ n−1 的中值, n为奇数,
y k = 2 2 (2)
体特殊性,音强曲线斜率特性可能对话者自动识别,
x k− :k+ −1 的中值, n为偶数,
n
n
特别是司法话者识别具有重要价值。这些结果启发 2 2
我们利用音强斜率的动态特性进行了同卵双胞胎 y k = 0.0833x k−2 + 0.2500x k−1 + 0.3333x k
语音的话者识别研究。实验研究中,针对 13 对同卵 + 0.2500x k+1 + 0.0833x k+2 . (3)
双胞胎的由16 个音节组成的声样,分别分析了每个
音节音强的峰值 (I P ) 是音节区间内音强的最
音节音强的上升斜率和下降斜率。数据的统计分析
大值,音节音强的谷值 (I T ) 是相邻音强峰值间的
结果表明:在 90% 的置信度下,实验中的 13 对同卵
音强最小值 (图 1),可以通过 IV-12 智能语音工作
双胞胎语音都得到正确的区分,佐证并发展了 Lei
站 (10.0 版) 将对应区间音强数据输出到 Excel 后,
等 [9] 的研究结论,为识别同卵双胞胎发音人提供了
分别利用自动求最大值与最小值函数求得。
有效声学参量。
1.3 音节音强斜率的计算
1 研究语料与方法 音强斜率的计算如图 1 所示,在音强曲线上分
别找出每个音节的峰值 (I P )、谷值 (I T ) 及其在时间
1.1 语料
轴上的对应点时间(t T 、t P )。然后根据公式
为了保证实验结果的可比性,该实验使用杨俊
杰等 [10] 曾经使用过的,利用音节间相对音强与相 S + = (I P − I T )/(t P − t T ), (4)