Page 97 - 应用声学2019年第2期
P. 97
第 38 卷 第 2 期 王玮蔚等: 基于变分模态分解的语音情感识别方法 243
表 2 EMODB 数据集分类实验结果 (识别率)
Table 2 EMODB data set classification experiment results
EMD EMD EMD EEMD EEMD EEMD VMD VMD VMD
KNN SVM ELM
+KNN +SVM +ELM +KNN +SVM +ELM +KNN +SVM +ELM
害怕 0.65 0.66 0.77 0.6 0.75 0.83 0.56 0.78 0.88 0.6 0.8 0.9
开心 0.58 0.72 0.71 0.8 0.85 0.87 0.88 0.81 0.85 0.95 0.75 0.88
中性 0.51 0.65 0.68 0.6 0.7 0.82 0.68 0.67 0.89 0.65 0.9 0.94
伤心 0.67 0.81 0.82 0.88 0.75 0.85 0.84 0.73 0.81 0.9 0.8 0.86
生气 0.43 0.67 0.85 0.68 0.75 0.86 0.72 0.85 0.89 0.65 0.8 0.91
平均 0.568 0.702 0.766 0.712 0.76 0.846 0.736 0.768 0.864 0.75 0.81 0.898
表 3 RAVDESS 数据集分类实验结果 (识别率)
Table 3 RAVDESS data set classification experiment results
EMD EMD EMD EEMD EEMD EEMD VMD VMD VMD
KNN SVM ELM
+KNN +SVM +ELM +KNN +SVM +ELM +KNN +SVM +ELM
害怕 0.71 0.68 0.77 0.85 0.75 0.95 0.79 0.80 0.94 0.8 1 1
开心 0.39 0.77 0.69 0.45 0.85 0.92 0.66 0.85 0.91 0.65 0.9 0.93
中性 0.44 0.69 0.72 0.3 0.9 0.87 0.58 0.86 0.93 0.55 0.95 0.95
伤心 0.57 0.55 0.66 0.95 0.75 0.75 0.77 0.79 0.89 0.9 0.95 0.95
生气 0.61 0.72 0.78 0.85 0.8 0.89 0.81 0.88 0.91 0.9 0.9 0.94
平均 0.544 0.682 0.724 0.68 0.81 0.876 0.722 0.836 0.916 0.76 0.94 0.954
Conference on Multimedia and Expo. ICME ’03. Pro-
4 结论 ceedings, 2003: 401–404.
[3] Ververidis D, Kotropoulos C, Pitas I. Automatic emo-
根据语音信号非平稳、非线性特点,本文将变 tional speech classification[C]//2004 IEEE International
分模态分解(VMD)引入到语音情感特征识别中,通 Conference on Acoustics, Speech, and Signal Processing,
过 Hilbert 变换和提取 MFCC 参数,组成新的语音 2004, 1: 593–596.
[4] Sun R, Moore E. Investigating glottal parameters and tea-
情感非线性联合特征。将该特征应用于语音情感识
ger energy operators in emotion recognition[M]//Affective
别,实验将基于 VMD 提取的 VMD-MFCC 特征和 computing and intelligent interaction. Berlin, Heidelberg:
VMD-HT特征与传统语音情感特征相结合,采用极 Springer, 2011: 425–434.
限学习机进行语音情感分类。实验结果表明,相较 [5] 韩一, 王国胤, 杨勇. 基于 MFCC 的语音情感识别 [J]. 重庆
邮电大学学报: 自然科学版, 2008, 20(5): 597–602.
于基于 EMD 和 EEMD 的情感特征,基于 VMD 的
Han Yi, Wang Kuangyin, Yang Yong. Speech emotion
语音特征结合极限学习机进行语音情感分类的方 recognition based on MFCC[J]. Journal of Chongqing Uni-
法,具有更高的识别率。 versity of Posts and Telecommunications: Natural Sci-
ence, 2008, 20(5): 597–602.
[6] He L, Lech M, Maddage N C, et al. Study of empiri-
参 考 文 献 cal mode decomposition and spectral analysis for stress
and emotion classification in natural speech[J]. Biomedi-
[1] Lin Y L, Wei G, Yang K C. Research progress of speech cal Signal Processing and Control, 2011, 6(2): 139–146.
emotion recognition[J]. Journal of Circuits and Systems, [7] Sethu V, Ambikairajah E, Epps J. Empirical mode de-
2007, 12(1): 90–98. composition based weighted frequency feature for speech-
[2] Schuller B, Rigoll G, Lang M. Hidden Markov model- based emotion classification[C]//Acoustics, Speech and
based speech emotion recognition[C]//2003 International Signal Processing, 2008. ICASSP 2008. IEEE Interna-