Page 59 - 《应用声学》2020年第2期
P. 59

第 39 卷 第 2 期                  褚钰等: 语音情感识别中的特征选择方法                                           217


                                                               韵律特征也可以显著提高识别准确率                  [9] 。本文提出
             0 引言
                                                               一种特征融合算法,保留了在实验中表现稳定且有
                 语音情感识别是语音识别的重要组成部分,随                          较高识别率的谱特征的全部特征,提取韵律学特征
                                                               基音频率、音质特征共振峰的相关统计量作为辅助
             着人工智能领域的发展与延伸,进一步了解语音,
             发掘语音下隐含的情绪信息,在安防、监控、医疗                            特征融合于谱特征中。
             看护等领域具有重要的价值。目前与语音情感有关
                                                               1 情感特征提取
             的声学特征主要分为 3 类,分别为基于谱的相关特
             征、韵律学特征、音质特征            [1] 。这些特征又分为常             1.1  谱相关特征
             见低级描述和高级描述的水平统计函数                   [2−3] ,低级         谱特征被认为是声道形状变化和发声运动之
             描述主要包括:基音频率(Fundamental frequency)、               间相关性的体现         [10] 。研究者发现,语音中的情感
             能量 (Energy)、过零率 (Zero-crossing)、抖动 (Jit-          内容对频谱能量在各个频谱区间的分布有着明显
             ter)、梅尔滤波特征 (Mel-filterbank features)、共振           的影响    [11] 。由于人听到的声音高低和频率大小不
             峰位置/带宽 (Formant locations/bandwidths)、谐           呈线性正比关系,而梅尔倒谱系数 (Mel frequency
             波噪声比 (Harmonics-to-noise ratio) 等;高级描述            cepstrum coefficient, MFCC)特征基于人耳听觉特
             主要包括:均值 (Mean)、方差 (Variance)、最小值                  性,因此在语音情感分类中具有良好的鲁棒性和准
             (min)、最大值 (max)、范围 (Range)、高阶矩 (偏                 确度,其计算公式满足:
             度、峰度)(Higher order moments(Skewness, Kurto-                                 (      f  )
                                                                        Mel(f) = 2595 × lg 1 +      ,     (1)
             sis))、线性回归系数 (Linear regression coefficients)                                       700
             等。                                                式(1)中,f 为声音频率,单位Hz。

                 近年来,Koolagudi 等     [4]  提出非个性化语音情                为进一步反映语音的动态特性,本文提取语音
             感特征,不受说话人个人特征影响,主要包括无声部                           MFCC特征的一阶、二阶差分,计算公式如下:
             分时间与有声部分时间比率、基频平均变化率等。                                  
                                                                     C t+1 − C t ,            t < K,
                                                                     
                 不同特征对情感的分类结果有不同程度的影                                 
                                                                     
                                                                     
                                                                     
                                                                     ∑ K
             响,直接使用数量庞大的情感特征,往往导致运算速                                        k(C t+k − C t−k )
                                                                     
                                                                     
                                                                          k=1               ,  其他,
             度降低、建模效果不理想等问题,如何在离散语音                             d t =      √   ∑ K                        (2)
                                                                     
                                                                            2       k 2
                                                                     
             情感识别任务中找到有效的情感特征,并通过这些                                              k=1
                                                                     
                                                                     
                                                                     
                                                                     
             特征来表达情感信息,是研究者面临的一大问题;此                                  C t − C t−1 ,           t > Q − K,
                                                                     
             外,同一情感特征在不同语音数据集中的表现也存
                                                               其中,d t 为第 t 个一阶差分,C t 为第 t 个倒谱系数,
             在较大差异,适用于某一数据集的情感特征在其他
                                                               Q 为倒谱系数的阶数,K 为一阶导数的时间差,可
             数据集上表现并不一定理想。因此,寻找一种更为
                                                               取1 或2。将式 (2) 中结果再代入就可以得到二阶差
             普遍、并能跨数据集实现情感识别的特征成为了当
                                                               分的参数。
             前语音情感识别的重点。
                                                                   逆 梅 尔 倒 谱 系 数 (Inverted MFCC, IM-
                 特征融合是一种优化参数的手段,在特征选择
                                                               FCC)  [12]  是一种针对高频信息的语音特征,与 Mel
             与特征融合问题上,Cao 等          [5]  利用随机森林算法分
                                                               滤波器组在低频部分具有较高分辨率的特点相反,
             析提取的声学特征,并去除包含多余情感信息的特
                                                               IMFCC 特征在高频区域使用较窄的滤波器获得高
             征,以此进行特征选择;刘博等              [6]  提取语音谱特征,
                                                               频信息,强调不同频率带之间的差异。其表达式                      [13]
             得到一个高斯混合模型,进一步拼接得到该语音的
                                                               为
             超向量;张文克       [7]  将两个不同的谱特征进行合并,                                           (             )
                                                                                             4000−f Hz
             求取融合后的特征参数序列,在此基础上,王忠民                              IMel(f) = 2146.1−1127 ln 1+    700     . (3)
             等  [8]  使用多核学习算法将谱特征与语音的语谱图                           感觉加权线性预测 (Perceptual linear predic-
             特征进行融合,提高了分类精度与识别准确率;此                            tive, PLP) 参数是一种基于听觉模型的特征参数,
             外,基于深度学习,通过融合谱特征和基于音高的超                           具有更强的噪声鲁棒性            [14] 。它在临界频带分析处
   54   55   56   57   58   59   60   61   62   63   64