Page 63 - 《应用声学》2020年第2期
P. 63
第 39 卷 第 2 期 褚钰等: 语音情感识别中的特征选择方法 221
ឦᬷ ᔮឦᬷ ॴឦᬷ
100
90
80
70
ྲढ़គѿဋ/% 60
50
40
30
20
Ч໓ ࠫඋࠄᰎ 1 ࠫඋࠄᰎ 2
10
ࠫඋࠄᰎ3 ࠫඋࠄᰎ 4
0
BP RF SVM BP RF SVM BP RF SVM
ካข
图 3 不同数据集上 5 组融合特征识别率
Fig. 3 The recognition rate of five sets of fusion features on different dataset
表 2 不同数据集上 5 组融合特征的识别率
Table 2 The recognition rate of five sets of fusion features on different dataset
汉语数据集 英语数据集 德语数据集
BP RF SVM BP RF SVM BP RF SVM
OURS 0.483 0.467 0.6 0.857 0.742 0.813 0.771 0.729 0.771
对比实验 1 0.5 0.417 0.683 0.846 0.739 0.81 0.75 0.646 0.688
对比实验 2 0.483 0.417 0.617 0.852 0.736 0.824 0.75 0.688 0.729
对比实验 3 0.4 0.533 0.4 0.566 0.734 0.412 0.667 0.729 0.396
对比实验 4 0.4 0.45 0.483 0.338 0.571 0.33 0.312 0.542 0.292
辅助特征是以不同特征相关统计量的形式添 稳定的高识别率,这需要寻找一种更具有普遍性的
加到主要特征中的,这使得主要特征的特征向量中 声学特征。除此之外,人类情感具有模糊的时间边
出现了与原始数据差异较大的元素。在使用融合特 界,且一句话中很可能包含多种情感,如何实现长时
征进行语音情感识别时,相比单个特征进行识别,实 语音的复杂情感识别,也是未来的研究方向。
验时间有一定程度的增长。对于 BP 神经网络和随
机森林算法,识别效率影响不大,但是对于 SVM 算
参 考 文 献
法,实验时间明显增长,这是由于 SVM 算法会将数
据输入到高维空间进行分类,差异较大的新元素的 [1] Nwe T L, Foo S W, de Silva L C. Speech emotion recog-
加入会使 SVM 运算量显著加大,从而导致实验时 nition using hidden Markov models[J]. Speech Communi-
cation, 2003, 41(4): 603–623.
间的延长。
[2] Mirsamadi S, Barsoum E, Zhang C. Automatic speech
emotion recognition using recurrent neural networks with
4 结论 local attention[C]. 2017 IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP),
研究发现,语音情感特征在不同分类器下具有 New Orleans, LA, 2017: 2227–2231.
不同的识别能力,本文提出的特征融合算法,保留了 [3] Hsiao P, Chen C. Effective attention mechanism in dy-
namic models for speech emotion recognition[C]. 2018
不同特征的优点,较好地实现了不同分类方式下的
IEEE International Conference on Acoustics, Speech
稳定识别,且在不同数据集上均能较好地完成识别。 and Signal Processing (ICASSP), Calgary, AB, 2018:
目前语音情感识别依旧具有一定难度,不同语 2526–2530.
[4] Koolagudi S G, Rao K S. Emotion recognition from
种数据集的识别率存在明显差异,这应该与文化、地
speech: a review[J]. International Journal of Speech Tech-
域等诸多因素有关,如何在不同数据集上均能实现 nology, 2012, 15(2): 99–117.