Page 59 - 《应用声学》2020年第2期
P. 59
第 39 卷 第 2 期 褚钰等: 语音情感识别中的特征选择方法 217
韵律特征也可以显著提高识别准确率 [9] 。本文提出
0 引言
一种特征融合算法,保留了在实验中表现稳定且有
语音情感识别是语音识别的重要组成部分,随 较高识别率的谱特征的全部特征,提取韵律学特征
基音频率、音质特征共振峰的相关统计量作为辅助
着人工智能领域的发展与延伸,进一步了解语音,
发掘语音下隐含的情绪信息,在安防、监控、医疗 特征融合于谱特征中。
看护等领域具有重要的价值。目前与语音情感有关
1 情感特征提取
的声学特征主要分为 3 类,分别为基于谱的相关特
征、韵律学特征、音质特征 [1] 。这些特征又分为常 1.1 谱相关特征
见低级描述和高级描述的水平统计函数 [2−3] ,低级 谱特征被认为是声道形状变化和发声运动之
描述主要包括:基音频率(Fundamental frequency)、 间相关性的体现 [10] 。研究者发现,语音中的情感
能量 (Energy)、过零率 (Zero-crossing)、抖动 (Jit- 内容对频谱能量在各个频谱区间的分布有着明显
ter)、梅尔滤波特征 (Mel-filterbank features)、共振 的影响 [11] 。由于人听到的声音高低和频率大小不
峰位置/带宽 (Formant locations/bandwidths)、谐 呈线性正比关系,而梅尔倒谱系数 (Mel frequency
波噪声比 (Harmonics-to-noise ratio) 等;高级描述 cepstrum coefficient, MFCC)特征基于人耳听觉特
主要包括:均值 (Mean)、方差 (Variance)、最小值 性,因此在语音情感分类中具有良好的鲁棒性和准
(min)、最大值 (max)、范围 (Range)、高阶矩 (偏 确度,其计算公式满足:
度、峰度)(Higher order moments(Skewness, Kurto- ( f )
Mel(f) = 2595 × lg 1 + , (1)
sis))、线性回归系数 (Linear regression coefficients) 700
等。 式(1)中,f 为声音频率,单位Hz。
近年来,Koolagudi 等 [4] 提出非个性化语音情 为进一步反映语音的动态特性,本文提取语音
感特征,不受说话人个人特征影响,主要包括无声部 MFCC特征的一阶、二阶差分,计算公式如下:
分时间与有声部分时间比率、基频平均变化率等。
C t+1 − C t , t < K,
不同特征对情感的分类结果有不同程度的影
∑ K
响,直接使用数量庞大的情感特征,往往导致运算速 k(C t+k − C t−k )
k=1 , 其他,
度降低、建模效果不理想等问题,如何在离散语音 d t = √ ∑ K (2)
2 k 2
情感识别任务中找到有效的情感特征,并通过这些 k=1
特征来表达情感信息,是研究者面临的一大问题;此 C t − C t−1 , t > Q − K,
外,同一情感特征在不同语音数据集中的表现也存
其中,d t 为第 t 个一阶差分,C t 为第 t 个倒谱系数,
在较大差异,适用于某一数据集的情感特征在其他
Q 为倒谱系数的阶数,K 为一阶导数的时间差,可
数据集上表现并不一定理想。因此,寻找一种更为
取1 或2。将式 (2) 中结果再代入就可以得到二阶差
普遍、并能跨数据集实现情感识别的特征成为了当
分的参数。
前语音情感识别的重点。
逆 梅 尔 倒 谱 系 数 (Inverted MFCC, IM-
特征融合是一种优化参数的手段,在特征选择
FCC) [12] 是一种针对高频信息的语音特征,与 Mel
与特征融合问题上,Cao 等 [5] 利用随机森林算法分
滤波器组在低频部分具有较高分辨率的特点相反,
析提取的声学特征,并去除包含多余情感信息的特
IMFCC 特征在高频区域使用较窄的滤波器获得高
征,以此进行特征选择;刘博等 [6] 提取语音谱特征,
频信息,强调不同频率带之间的差异。其表达式 [13]
得到一个高斯混合模型,进一步拼接得到该语音的
为
超向量;张文克 [7] 将两个不同的谱特征进行合并, ( )
4000−f Hz
求取融合后的特征参数序列,在此基础上,王忠民 IMel(f) = 2146.1−1127 ln 1+ 700 . (3)
等 [8] 使用多核学习算法将谱特征与语音的语谱图 感觉加权线性预测 (Perceptual linear predic-
特征进行融合,提高了分类精度与识别准确率;此 tive, PLP) 参数是一种基于听觉模型的特征参数,
外,基于深度学习,通过融合谱特征和基于音高的超 具有更强的噪声鲁棒性 [14] 。它在临界频带分析处