Page 60 - 《应用声学》2020年第2期
P. 60
218 2020 年 3 月
理、等响度曲线预加重以及信号强度 -听觉响度变 1.3 音质特征
换 3 个方面,模仿人耳的听觉感知机理 [15] :首先通 声音质量是一种用于衡量语音是否具有纯净、
过傅里叶变换得到语音信号的频谱,取其实部和虚 清晰、容易辨识等特点的主观评价指标 [19] 。其特
部的平方和得到语音信号的短时能量谱 P(f) [16] , 征一般有共振峰频率及其带宽、频率微扰和振幅微
其表达式为 扰、声门参数等。语音信号作为一种非平稳信号,其
生成与 3 个系统有关 [20] ,声带系统负责产生激励振
2
2
P(f) = {Re[X(f)]} + {Im[X(f)]} . (4)
动,声道系统负责气流通过,辐射系统则是指由嘴唇
进而获得临界带宽听觉谱,接着进行等响度预加重, 完成的语音辐射,形成“话”。
最后模拟强度与响度间的非线性关系,对预加重后 共振峰是指在频谱中能量相对集中的一些区
的响度开立方根,通过逆傅里叶变换与线性预测得 域,体现的是声道的信息,其频率的分布特性决定语
到 PLP 特征参数。RASTA 滤波器 [17] 是一种用于 音的音色 [21] ,在语音识别方面具有重要的作用。常
抑制非语言学背景噪声的无限脉冲响应数字滤波 用的提取语音共振峰的方法为倒谱法和线性预测
器,经过 RASTA 滤波器处理后的 PLP 特征具有更 编码 (Linear predictive coding, LPC) 法,倒谱法对
好的语音识别效果,它的传输函数为 语音信号进行离散傅里叶变换,进一步求得共振峰
2 + z −1 − z −3 − 2z −4 参数;LPC法则是通过线性预测的方法推导出声道
H(z) = 0.1 × . (5)
z −4 × (1 − ρz −1 ) 滤波器进而找出共振峰。本文采用 LPC 法提取共
本文提取 RASTA-PLP 特征以及该参数的一 振峰参数。
阶、二阶差分。
2 特征融合
1.2 韵律学特征
图 1 是组图,分别由汉语数据集、英语数据集、
韵律相比于文本内容,其所包含的信息相对
德语数据集测试得来。每一幅图的纵坐标都表示识
较少,但韵律注重音高、快慢以及轻重等方面的变
别率,横坐标为情感特征,从左到右依次是谱特征:
化 [18] ,能够帮助听者更好地理解语音信息中的重
MFCC,MFCC及其一阶、二阶差分,逆梅尔对数频
点,使听者能够更快地获取有效信息,因而在情感识
谱系数,RASTA-PLP,RASTA-PLP 及其一阶、二
别上具有明显的优势。本文提取语音的基音频率、
阶差分;韵律特征:基音频率,过零率,短时能量;音
过零率、短时能量作为情感特征。
质特征:共振峰,共振峰一阶抖动,共振峰二阶抖动。
声带具有清音与浊音两种振动方式,其中浊音
不同颜色的柱状图表示当前特征在不同分
振动具有周期性,其振动频率便是基音频率。本文
类器上的识别结果。本文采用 BP 神经网络 (Back
使用短时自相关函数法求取基音频率,对语音进行
propagation neutral network, BPNN)、随机森林
分帧,通过比较原始信号与时延后的信号间的类似
(Random forest, RF)、支持向量机 (Support vector
性来求取该特征,自相关函数如下:
machine, SVM )3种方式进行分类。可以看出,情感
N−m
∑ 特征对分类器敏感,同一特征在不同分类器上的表
R i (k) = x i (m)x i (m + k), (6)
m=1 现具有明显差异:谱相关特征在神经网络中具有较
其中,k 是时延。使用式 (7) 和式 (8) 求取语音短时 好的分类效果,而韵律学特征则对随机森林敏感;此
能量和短时过零率: 外,语种也对识别率具有一定影响,汉语的识别率稍
低于英语、德语,这应该与日常的情感表达习惯有
N−1
∑ 2
E(i) = x (m), (7) 一定关系。
i
m=0
本文对 3 个数据集上具有最好表现的声学特
N−1
1 ∑ 征:MFCC、基音频率、共振峰进行融合。该算法首
Z(i) = |sgn[x i (m)] − sgn[x i (m − 1)]|, (8)
2
m=0 先将提取出的 MFCC 特征矩阵 M、基音频率特征
其中,x i (m)为第i帧语音信号,N 为帧长。 向量T 、共振峰特征向量 F 作为输入,之后将 M 转