Page 142 - 《应用声学》2021年第6期

P. 142

938 2021 年 11 月

下和第三共振峰 F 3 区域引入了零极点对；Hawkins
0 引言
等 [16] 指出除了 F 1 附近存在一个以上的共振峰外，
20世纪30年代至今，司法话者识别技术已经历自然语音中的鼻音化还可以在较高频率频谱中引
入其他共振峰，而且这些共振峰变化在不同个体
了近 90年的发展历程。当前，国内外司法话者识别
和元音中并不一致；方强等 [17] 验证了元音鼻化后
方法主要有声学语音学识别、全自动话者识别及半
自动话者识别 3 种 [1] 。其中，依靠 “听觉－声学－语会在 250 Hz 附近出现弱的鼻音共振峰，1000 Hz 和
音识别” 由专家进行综合判别的声学语音学识别方 2000 Hz 之间会出现几个能量较弱的谱峰，不同元
音鼻化后所表现的声学特征也各不相同。此外，在
法，因其结论准确性及可解释性为各国法庭普遍采
研究分析个体鼻化元音声学特征时，往往是基于已
信，成为国内外司法话者识别专家普遍采用的方法。
知元音发生鼻化，且有与之对应的口元音为参照的
全自动话者识别具有快速高效的特点，但识别准确
率随着样本库容、语种、信道等的异同而稳定性较前提。然实践中，某些个体因生理或方言发音习惯
等因素的影响，会把口元音发成鼻化元音，进而难
差，故主要应用在门禁系统、犯罪预防、军事等领域；
以找到口元音做参照，使得共振峰的分析工作更加
在打击犯罪领域主要是利用其快速特点进行嫌疑
困难。即便常见单元音的前 3 个共振峰有数据可参
对象的筛查与串并案件。而基于人工与自动识别相
考 [18] ，但要区分某个具体元音中的某个共振峰是口
结合的半自动话者识别技术，正处于研究阶段，尚未
音峰还是鼻音峰却也非常不易。因此，在司法话者
有成熟可信的系统可供使用。在声学语音学的司法
识别领域，李敬阳等 [19] 提出，不论哪种强峰都是个
话者识别方法中，共振峰频率是最为常见的声学测
人语音音色特性的体现，检案中，可以按说话人语音
量参数之一 [2] ，对其应用主要体现在共振峰的动态
出现的强峰，依次标称为第一、第二、第三强峰或者
模式与静态模式上，因其是话者发音器官言语中运
直接沿用语音学 “共振峰” 的称谓，省去口、鼻音共
动习惯动力定型的声学表现，能够充分体现个体间
振峰判定的繁复过程。然而，口音共振峰数据的准
发音习惯的异同。而基于第一、第二共振峰构建的
确性是通过 F 1 、F 2 构建元音声学空间模型来识别
元音声学空间 (F 1 -F 2 sapce) 度量模型是对共振峰
说话人的首要要求，如不明确区分口音、鼻音共振
模式最直观体现的方式之一 [3] 。而今，这一度量模
峰，构建元音声学空间的准确性便无从谈起。更何
型还被广泛应用于检测耳蜗植入物的语音感知 [4] 、
况由于个体间鼻腔与副鼻腔的人间差异显著，其声
语言疾病评估 [5−6] 、构音障碍矫治 [7] 、语音清晰度
学特性具有明显的人间差异 [20] ，如不能进行细致的
评估 [8] 、语音识别 [9] 、跨语言比较 [10] 、汉语方言学
区分，则无法充分发掘鼻音峰的区别价值。
研究 [11] 等多项研究中。
为此，本文探究了一种通过编辑元音共振峰的
尽管元音声学空间度量模型已有较为广泛的
能量，结合专家听辨，观察编辑前后元音音质的改变
研究应用，但鼻化元音共振峰的阶次问题一直是个
情况，来区分口音、鼻音共振峰的方法，以期对司法
绕不开的挑战。鼻音和鼻化音在言语中不可或缺，
话者识别中构建元音声学空间模型能有所帮助。
是声道口腔部分与鼻腔、副鼻腔 (又称副鼻窦) 耦合
的结果。鼻腔和副鼻腔的解剖结构相当复杂。Dang
1 理论依据
等 [12−13] 利用核磁共振成像 (Magnetic resonance
imaging, MRI) 研究了鼻腔、副鼻腔的形态与之对早在 1948 年，Joos [21] 就提出了 F 1 、F 2 与舌位
应的声学关系，发现二者形态的个体差异大，左右的高低和前后的直接关联。1951 年，Delattre [22] 对
不对称明显。这种形态上的复杂性在声学实验中会舌位和共振峰进行了详细比较，得出结论：F 1 反映
产生极其复杂的频率响应，导致元音鼻化后在口音发音人舌位的高低 (或嘴巴的开合度)，F 2 反映舌位
共振峰附近引入额外鼻音共振峰的数目和位置并的前后或嘴唇的圆展，F 3 主要反映舌尖的上翘 (卷
不固定，具有明显的个体变异和人间差异。从语音舌)。鲍怀翘等 [18] 分别用不同的方法讨论了舌位和
学角度，Ladefoged [14] 证实在第一共振峰 F 1 与第二声道形状与共振峰频率之间的关系，得到了一致的
共振峰 F 2 之间存在一个鼻音共振峰 F n 。Fujimura 结果“舌位高低主要与F 1 相关；舌位前后可用 F 2 的
等 [15] 通过对声道的扫描测量，认为通常在 F 1 以值来推算”。

137 138 139 140 141 142 143 144 145 146 147