Page 142 - 《应用声学》2021年第6期
P. 142
938 2021 年 11 月
下和第三共振峰 F 3 区域引入了零极点对;Hawkins
0 引言
等 [16] 指出除了 F 1 附近存在一个以上的共振峰外,
20世纪30年代至今,司法话者识别技术已经历 自然语音中的鼻音化还可以在较高频率频谱中引
入其他共振峰,而且这些共振峰变化在不同个体
了近 90年的发展历程。当前,国内外司法话者识别
和元音中并不一致;方强等 [17] 验证了元音鼻化后
方法主要有声学语音学识别、全自动话者识别及半
自动话者识别 3 种 [1] 。其中,依靠 “听觉-声学-语 会在 250 Hz 附近出现弱的鼻音共振峰,1000 Hz 和
音识别” 由专家进行综合判别的声学语音学识别方 2000 Hz 之间会出现几个能量较弱的谱峰,不同元
音鼻化后所表现的声学特征也各不相同。此外,在
法,因其结论准确性及可解释性为各国法庭普遍采
研究分析个体鼻化元音声学特征时,往往是基于已
信,成为国内外司法话者识别专家普遍采用的方法。
知元音发生鼻化,且有与之对应的口元音为参照的
全自动话者识别具有快速高效的特点,但识别准确
率随着样本库容、语种、信道等的异同而稳定性较 前提。然实践中,某些个体因生理或方言发音习惯
等因素的影响,会把口元音发成鼻化元音,进而难
差,故主要应用在门禁系统、犯罪预防、军事等领域;
以找到口元音做参照,使得共振峰的分析工作更加
在打击犯罪领域主要是利用其快速特点进行嫌疑
困难。即便常见单元音的前 3 个共振峰有数据可参
对象的筛查与串并案件。而基于人工与自动识别相
考 [18] ,但要区分某个具体元音中的某个共振峰是口
结合的半自动话者识别技术,正处于研究阶段,尚未
音峰还是鼻音峰却也非常不易。因此,在司法话者
有成熟可信的系统可供使用。在声学语音学的司法
识别领域,李敬阳等 [19] 提出,不论哪种强峰都是个
话者识别方法中,共振峰频率是最为常见的声学测
人语音音色特性的体现,检案中,可以按说话人语音
量参数之一 [2] ,对其应用主要体现在共振峰的动态
出现的强峰,依次标称为第一、第二、第三强峰或者
模式与静态模式上,因其是话者发音器官言语中运
直接沿用语音学 “共振峰” 的称谓,省去口、鼻音共
动习惯动力定型的声学表现,能够充分体现个体间
振峰判定的繁复过程。然而,口音共振峰数据的准
发音习惯的异同。而基于第一、第二共振峰构建的
确性是通过 F 1 、F 2 构建元音声学空间模型来识别
元音声学空间 (F 1 -F 2 sapce) 度量模型是对共振峰
说话人的首要要求,如不明确区分口音、鼻音共振
模式最直观体现的方式之一 [3] 。而今,这一度量模
峰,构建元音声学空间的准确性便无从谈起。更何
型还被广泛应用于检测耳蜗植入物的语音感知 [4] 、
况由于个体间鼻腔与副鼻腔的人间差异显著,其声
语言疾病评估 [5−6] 、构音障碍矫治 [7] 、语音清晰度
学特性具有明显的人间差异 [20] ,如不能进行细致的
评估 [8] 、语音识别 [9] 、跨语言比较 [10] 、汉语方言学
区分,则无法充分发掘鼻音峰的区别价值。
研究 [11] 等多项研究中。
为此,本文探究了一种通过编辑元音共振峰的
尽管元音声学空间度量模型已有较为广泛的
能量,结合专家听辨,观察编辑前后元音音质的改变
研究应用,但鼻化元音共振峰的阶次问题一直是个
情况,来区分口音、鼻音共振峰的方法,以期对司法
绕不开的挑战。鼻音和鼻化音在言语中不可或缺,
话者识别中构建元音声学空间模型能有所帮助。
是声道口腔部分与鼻腔、副鼻腔 (又称副鼻窦) 耦合
的结果。鼻腔和副鼻腔的解剖结构相当复杂。Dang
1 理论依据
等 [12−13] 利用核磁共振成像 (Magnetic resonance
imaging, MRI) 研究了鼻腔、副鼻腔的形态与之对 早在 1948 年,Joos [21] 就提出了 F 1 、F 2 与舌位
应的声学关系,发现二者形态的个体差异大,左右 的高低和前后的直接关联。1951 年,Delattre [22] 对
不对称明显。这种形态上的复杂性在声学实验中会 舌位和共振峰进行了详细比较,得出结论:F 1 反映
产生极其复杂的频率响应,导致元音鼻化后在口音 发音人舌位的高低 (或嘴巴的开合度),F 2 反映舌位
共振峰附近引入额外鼻音共振峰的数目和位置并 的前后或嘴唇的圆展,F 3 主要反映舌尖的上翘 (卷
不固定,具有明显的个体变异和人间差异。从语音 舌)。鲍怀翘等 [18] 分别用不同的方法讨论了舌位和
学角度,Ladefoged [14] 证实在第一共振峰 F 1 与第二 声道形状与共振峰频率之间的关系,得到了一致的
共振峰 F 2 之间存在一个鼻音共振峰 F n 。Fujimura 结果“舌位高低主要与F 1 相关;舌位前后可用 F 2 的
等 [15] 通过对声道的扫描测量,认为通常在 F 1 以 值来推算”。