Page 61 - 《应用声学》2020年第2期
P. 61

第 39 卷 第 2 期                  褚钰等: 语音情感识别中的特征选择方法                                           219


             化为一维列向量 M ,对 T 分别求取最大值、最小
                               ′
                                                               3 实验测试
             值、均值、标准差得到一维列向量T ,对F 分别求取
                                            ′
             最大值、最小值、均值、标准差得到一维列向量 F ,                         3.1  数据集
                                                         ′
             由于 MFCC 特征是情感识别中较为有效的频谱特                              本实验在 3 种语种的公开数据集上进行:中
             征,在实验中表现稳定且在不同数据集上均具有较                            国科学院汉语数据集、EmoV-DB 英语情感数据
             高的识别率,因此在之后的操作中保留MFCC 的全                          集 [22] 、德国柏林德语语料库        [23] 。
             部 13 维特征,将之前得到的 T 和 F 添加到 M 之                         汉 语 数 据 集 共 有 语 音 300 条, 采 样 频 率 为
                                             ′
                                                       ′
                                        ′
             后,即得到融合特征向量。                                      16 kHz,16 bit 量化,语音有 angry、fear、happi-
                                                               ness、neutral、sad、surprise 共 6 种情感,每种情感
                  100
                                                 BP            各 50 条语音;EmoV-DB 英语情感数据集共有语音
                                                 RF
                   80                            SVM
                                                               1817 条,采样频率为 16 kHz,16 bit 量化,语音包含
                  គѿဋ/%  60                                    amused、angry、disgust、neutral、sleepiness 共 5 种
                                                               情感;德国柏林德语语料库中包含 7 种情感,共 535
                   40
                                                               句情感语音信号,本文从中选择了 angry、happy、
                                                               neutral、sad 四种情感,每种情感随机选择 60 条语
                   20
                                                               音,共 240 条用于识别,音频采样频率为 16 kHz,
                    0                                          16 bit量化。
                      MFCC MFCC_d MFCC_dd LOGMEL  RPLP RPLP_d RPLP_dd  FT  ZCR  STE  FM  FM1  FM2  本文共选择 2357 条语音用于构建实验数据集,

                                (a) ඾ឦ஝૶ᬷ
                                                               总时长 2 h 50 min,其中训练集时长 2 h 16 min,包
                  100
                                                 BP            含语音1886条。
                                                 RF
                   80                            SVM
                                                               3.2  实验设计
                  គѿဋ/%  60                                    部分:第一部分验证特征融合算法的有效性;第二部
                                                                   为验证本文所提特征融合算法,实验分为两个

                   40
                                                               分验证本文所提融合特征较之于其他融合特征,具
                   20                                          有更稳定的识别能力。
                                                                   在第一部分的实验中,选取 3 个数据集上具有
                    0
                      MFCC MFCC_d MFCC_dd LOGMEL  RPLP RPLP_d RPLP_dd  FT  ZCR  STE  FM  FM1  FM2  最好表现的声学特征:MFCC、基音频率、共振峰进

                                (b) ᔮឦ஝૶ᬷ                      行融合。将得到的融合特征分别使用BP 神经网络、
                                                               随机森林、支持向量机 3 种算法在 3 个数据集上进
                  100
                                                 BP
                                                 RF            行情感识别,与 MFCC、基音频率、共振峰这 3 个单
                   80                            SVM
                                                               一特征的识别率进行比较。在第二部分的实验中设
                  គѿဋ/%  60                                    计多组对照试验,随机选取3个特征进行融合并在 3
                                                               个数据集上进行情感识别,将得到的识别率与本文
                   40
                                                               提出的融合特征进行比较。
                   20
                                                               3.3  实验结果

                    0                                              本文在汉语、英语、德语 3 个数据集上测试所
                      MFCC MFCC_d MFCC_dd LOGMEL  RPLP RPLP_d RPLP_dd  FT  ZCR  STE  FM  FM1  FM2  提融合特征的识别率,并使用在这 3 个数据集上具
                                (c) ॴឦ஝૶ᬷ                      有最好表现的不同声学特征作为参照。实验结果如
                                                               图 2 所示,其中蓝色为本文所提出的融合特征,橘色
                   图 1  不同特征在不同分类器上的识别结果
               Fig. 1 The recognition result of each feature on  为频谱特征 MFCC,灰色为韵律特征基音频率,黄
               different classifiers                             色为音质特征共振峰。可以看出,本文所提的融合
   56   57   58   59   60   61   62   63   64   65   66