Page 62 - 《应用声学》2020年第2期
P. 62
220 2020 年 3 月
特征在 3 个数据集上均有较好的识别率,在使用相 不同分类器时,融合特征依然具有较好的识别能力,
同分类器进行分类时,识别率几乎达到最优;当使用 且识别性能稳定。具体识别率如表1所示。
ឦᬷ ᔮឦᬷ ॴឦᬷ
100
90
80
70
ྲढ़គѿဋ/% 50
60
40
30
20
వ MFCC FT FM
10
0
BP RF S VM BP RF S VM BP RF S VM
ካข
图 2 不同数据集上融合特征的识别率
Fig. 2 The recognition rate of fusion features on different dataset
表 1 不同数据集不同特征的识别率
Table 1 The recognition rate of fusion features on different dataset
汉语数据集 英语数据集 德语数据集
BP RF SVM BP RF SVM BP RF SVM
OURS 0.483 0.467 0.6 0.857 0.742 0.813 0.771 0.729 0.771
MFCC 0.467 0.383 0.517 0.838 0.717 0.746 0.725 0.629 0.725
FT 0.317 0.417 0.217 0.511 0.75 0.341 0.542 0.708 0.375
FM 0.35 0.433 0.333 0.308 0.593 0.266 0.271 0.583 0.417
同时实验表明,本文所提出的融合特征在 3 个 大致相当,总体上看,本文提出的融合特征识别效果
数据集上的识别率绝大多数优于单一特征,且识别 最为稳定。具体识别率如表2所示。
性能稳定,能基本实现跨数据集的语音情感识别。 观察图 3 中的蓝色折线、橘色折线和灰色折线
为进一步验证本文特征融合算法,另设计 4 组 可以发现,3 条折线都是以 MFCC 特征为主要特征,
对照实验,随机选取 3 个单个特征进行融合,并与 选取其他两个特征作为辅助特征得到的融合特征,
本文提出的融合特征的识别率进行比对,实验结 它们都保留了 MFCC 的全部 13 维特征;而黄色折
果如图 3 所示。其中高亮显示的蓝色折线为本文 线和绿色折线选用非 MFCC特征作为主要特征,随
提出的融合特征,橘色折线为以 MFCC 为主要特 机两个特征作为辅助特征进行融合。
征、基音频率和共振峰二阶抖动为辅助特征得到 可以看出,后者的识别率明显降低且表现不稳
的融合特征,灰色折线为以 MFCC 为主要特征、过 定,分析认为,MFCC 谱特征与其他特征的相关统
零率和共振峰一阶抖动为辅助特征得到的融合特 计量具有互补性,MFCC特征在情感识别中具有良
征,黄色折线为以基音频率为主要特征、过零率和 好的鲁棒性,在其基础上通过添加辅助特征的识别
RASTA-PLP 为辅助特征得到的融合特征,绿色折 效果来提高总体的识别率是一种行之有效的手段。
线为以共振峰为主要特征、MFCC 和 RASTA-PLP 而在选择辅助特征时,选择单个识别率稳定且表现
为辅助特征得到的融合特征。可以看出,本文所提 最好的特征具有更好的效果。如果选用非谱特征作
融合方法在英语和德语数据集上基本具有最好的 为主要特征进行融合,反而会失去主要特征的识别
识别率,在汉语数据集上与其他融合特征的识别率 优势,辅助特征也无法起到互补的效果。