Page 83 - 201903

P. 83

第 38 卷第 3 期杨俊杰等：音强斜率特性区别同卵双胞胎语音的实验研究 365

对时长仍无法识别的 13 对同卵双胞胎语音进行研
0 引言
究 (发音人 16 女 10 男，年龄范围 11∼40 岁，平均年
在司法话者识别领域，语音的个体特殊性一直龄21.3岁，年龄标准差为 8.2，均无语言及听觉障碍，
是各位学者所追寻的。作为语音四要素的重要内每对双胞胎从小到大一直在一起生活；每人朗读声
容 [1] ，音强与时长特性近年来更是受到国内外专家样 5 遍，语音为普通话或略带口音的普通话；采样
的高度关注。对于音强，其强弱与人说话时的开口率为16 kHz，单声道)，分析语句为包含 ta qu wu xi
度密切相关 [2−3] 。先前研究表明，普通人群音强曲 shi chu chai，wo dao hei long jiang jian cha gong
线在曲率分布、拐点数与分布、极值数与分布、极 zuo(他去无锡市出差，我到黑龙江检查工作) 共 16
值特征、音节间过渡特征等方面具有总体特殊性 [4] ，个音节的两句话。
在韵母音强随时间的分布状态 [5] 和音节间音强关
1.2 音强曲线及其峰谷的提取
系等方面也具有个体特殊性 [6−7] 。即使是发音器官
语音分析设备为北京阳宸电子技术公司生
高度相似的同卵双胞胎语音，其音强特性也具有一
产的 IV-12 智能语音工作站 (10.0 版)。音强的计算
定的个体特殊性 [8−10] 。对于时长，Ulrike等 [11] 指出
步骤为
“· · · · · · 即使话者自身变异较大，不同说话人元音、
(1)分帧：帧移(步长)为10 ms，帧长20 ms。
辅音、浊音或峰间的时长差异仍然非常明显”。
(2)加窗：类型为汉明窗。
杨俊杰等 [10] 曾对利用音节间相对音强与相对
(3) 音强计算：根据公式 (1) 对每帧能量进行计
时长鉴别同卵双胞胎语音进行了研究。结果发现，
算，以得到音强级别(dB)。
在30对同卵双胞胎语音中，单独利用音节间相对音
( N )
强时，有 19 对无法区别开；单独利用音节间相对时 1 1 ∑
E f = lg x 2 n + 1, (1)
长时，有20 对无法区别开；综合利用二者进行检验， 10 N
n=1
结果仍有13对无法区别开。
其中，E f 为第 f 帧能量，N 为每帧采样点数，x n 为
近年来，有学者把音强与时长二维参量联合起
帧内第n点的振幅值。
来进行话者识别的研究 [9,11] 。其中，Ulrike 等 [11] 的
(4) 平滑：应用 5 阶中值滤波 (式 (2)) 与 5 阶线
研究发现，单独用音强或音强与时长联合检验的
性滤波(式(3))对音强曲线进行后平滑处理，进而得
区别力均强于单独利用时长的区别力。尤其是 Lei
到音强曲线。
等 [9] 在研究了普通个体连续语音音强的动态特性 
后发现，音节音强的下降斜率比上升斜率更具有个 x k− n−1 :k+ n−1 的中值, n为奇数,

y k = 2 2 (2)
体特殊性，音强曲线斜率特性可能对话者自动识别，

 x k− :k+ −1 的中值, n为偶数,
n
n
特别是司法话者识别具有重要价值。这些结果启发 2 2
我们利用音强斜率的动态特性进行了同卵双胞胎 y k = 0.0833x k−2 + 0.2500x k−1 + 0.3333x k
语音的话者识别研究。实验研究中，针对 13 对同卵 + 0.2500x k+1 + 0.0833x k+2 . (3)
双胞胎的由16 个音节组成的声样，分别分析了每个
音节音强的峰值 (I P ) 是音节区间内音强的最
音节音强的上升斜率和下降斜率。数据的统计分析
大值，音节音强的谷值 (I T ) 是相邻音强峰值间的
结果表明：在 90% 的置信度下，实验中的 13 对同卵
音强最小值 (图 1)，可以通过 IV-12 智能语音工作
双胞胎语音都得到正确的区分，佐证并发展了 Lei
站 (10.0 版) 将对应区间音强数据输出到 Excel 后，
等 [9] 的研究结论，为识别同卵双胞胎发音人提供了
分别利用自动求最大值与最小值函数求得。
有效声学参量。
1.3 音节音强斜率的计算
1 研究语料与方法音强斜率的计算如图 1 所示，在音强曲线上分

别找出每个音节的峰值 (I P )、谷值 (I T ) 及其在时间
1.1 语料
轴上的对应点时间(t T 、t P )。然后根据公式
为了保证实验结果的可比性，该实验使用杨俊
杰等 [10] 曾经使用过的，利用音节间相对音强与相 S + = (I P − I T )/(t P − t T ), (4)

78 79 80 81 82 83 84 85 86 87 88