Page 92 - 应用声学2019年第2期
P. 92
238 2019 年 3 月
为了提高语音情感特征识别性能,解决基于
0 引言
EMD 和EEMD算法的语音情感特征模态混叠和计
算量过大的缺点,本文将变分模态分解 (Variational
在多种通信方式中,语音信号是人与人、人与
modal decomposition, VMD)方法引入到语音情感
机器通信最快的自然方法。人类甚至可以从语音交
特征提取中 [10] ,提出基于 VMD 分解的语音情感
流中感觉到说话人的情绪状态。语音情感是分析声
特征,采用极限学习机(Extreme learning machine,
音行为的一种方法,是指各种影响 (如情绪、情绪和
ELM) 将本文特征与语音基音特征、谱特征作为分
压力)的指针,侧重于语音的非言语方面。在这种情
类特征进行实验。结果表明,相较于传统语音特征
况下,语音情感识别的主要挑战是提取一些客观的、
以及基于 EMD、EEMD的语音情感特征,本文提出
可测量的语音特征参数,这些参数可以反映说话人
的特征能更好地表示语音的情感特征,提高了语音
的情绪状态。近年来,语音情感识别在人机通信、机
情感的识别准确率。
器人通信、多媒体检索等领域得到了广泛关注。语
音情感识别研究主要是利用语音中的情感和语音
1 特征提取
特征的统计特性,进行一般定性的声学关联 [1−2] 。
语音情感识别的主要工作为语音情感特征提 1.1 VMD分解
取和分类网络模型选择。当前国内外的研究方向多 VMD 方法与反复循环剥离进行模态函数分解
为分类网络模型选择,而情感特征提取方向研究内 的EMD 方法不同,VMD 通过对变分模型的最优极
容较为匮乏,因此,提取有效的语音情感特征也是 值求解,实现自适应地获取 IMF,在迭代过程中不
当前语音情感识别的关键任务。2004年,Ververidis 断更新每个IMF分量的中心频率和带宽 [10−11] 。
等 [3] 从能量、基音和语音频谱的动态行为中提取出 IMF分量表达式为
87个静态特征,并提出了谱平坦度测度与谱中心的
u k (t) = A k (t) cos(φ k (t)), (1)
比值作为说话人独立的特征,利用帧级特征、基音
周期、能量和Mel倒谱系数(Mel frequency cepstral 其中,u k (t)为第k 个IMF分量,0 < k < K+1,A k (t)
coefficents, MFCC)对性别和情感进行了层次分类。 为第k 个IMF分量的幅值,φ k (t)为第k 个IMF分量
2011 年,Sun 等 [4] 将 Teager 能量中提取的小波系 的相角,t为时间。
数引入到语音情感识别中。2008 年,韩一等 [5] 将 约束条件为
{ }
MFCC 参数作为特征对语音情感进行识别,也取得 ∑
[( j ) ]
2
min
δ(t)+ · u k (t) e −jω k t
∂ t
了较好的结果。 {u k }{w k } πt 2
k
2011年,He 等 [6] 首先将经验模态分解 (Empir- s.t. ∑ u k = f, (2)
ical mode decomposition, EMD) 引入到语音情感 k
识别中。2015年,Sethu等 [7] 利用EMD将语音进行 式 (2) 中,{u k } := {u 1 , · · · , u K },u k (t) 记为 u k ,
分解,以分解得到的固有模态函数 (Intrinsic mode {u k } 为分解到的 K 个有限带宽的 IMF 分量的集
functions, IMF) 分量进行语音分类。Shahnaz 等 [8] 合,u k 表示分解到的第 k 个有限带宽的 IMF 分
将 EMD 和小波分析相结合,通过选取主导 IMF 分 量, ∂ t 为 微 分 算 子, δ(t) 为 狄 利 克 来 函 数, j
量,不仅减少了计算负担,而且避免包含冗余或信息 为 虚 数 符 号,e 为 自 然 常 数,f(t) 为 约 束 函 数,
量较少的数据,得到了 80.55% 的语音情感识别准 {ω k } := {ω 1 , · · · , ω K },{ω k } 为 K 个 IMF 分量所
确率。向磊 [9] 将集合固有模态函数 (Ensemble em- 对应的中心频率的集合,ω k 表示第 k 个IMF 分量所
2
pirical mode decomposition, EEMD) 和希尔伯特 对应的中心频率,∥·∥ 表示范数;通过拉格朗日函
2
(Hilbert) 边际谱相结合,有效地解决了传统 EMD 数求该约束条件下的最优解,生成的拉格朗日表
分解带来的模态混叠问题。 达式为
2 ⟨ ⟩
[(
∑ j ) ] 2
∑
∑
L({u k }, {ω k }, λ)=α
δ(t)+ u k (t) e −jω k t
u k (t)
+ λ(t), f(t)− u k (t) , (3)
+ f(t)−
∂ t
πt 2
k k 2 k