Page 60 - 《应用声学》2020年第2期
P. 60

218                                                                                  2020 年 3 月


             理、等响度曲线预加重以及信号强度 -听觉响度变                           1.3  音质特征
             换 3 个方面,模仿人耳的听觉感知机理                [15] :首先通          声音质量是一种用于衡量语音是否具有纯净、
             过傅里叶变换得到语音信号的频谱,取其实部和虚                            清晰、容易辨识等特点的主观评价指标                    [19] 。其特
             部的平方和得到语音信号的短时能量谱 P(f)                    [16] ,  征一般有共振峰频率及其带宽、频率微扰和振幅微
             其表达式为                                             扰、声门参数等。语音信号作为一种非平稳信号,其
                                                               生成与 3 个系统有关        [20] ,声带系统负责产生激励振
                                     2
                                                   2
                   P(f) = {Re[X(f)]} + {Im[X(f)]} .     (4)
                                                               动,声道系统负责气流通过,辐射系统则是指由嘴唇
             进而获得临界带宽听觉谱,接着进行等响度预加重,                           完成的语音辐射,形成“话”。
             最后模拟强度与响度间的非线性关系,对预加重后                                共振峰是指在频谱中能量相对集中的一些区
             的响度开立方根,通过逆傅里叶变换与线性预测得                            域,体现的是声道的信息,其频率的分布特性决定语
             到 PLP 特征参数。RASTA 滤波器           [17]  是一种用于        音的音色     [21] ,在语音识别方面具有重要的作用。常
             抑制非语言学背景噪声的无限脉冲响应数字滤波                             用的提取语音共振峰的方法为倒谱法和线性预测
             器,经过 RASTA 滤波器处理后的 PLP 特征具有更                      编码 (Linear predictive coding, LPC) 法,倒谱法对
             好的语音识别效果,它的传输函数为                                  语音信号进行离散傅里叶变换,进一步求得共振峰

                                2 + z −1  − z −3  − 2z −4      参数;LPC法则是通过线性预测的方法推导出声道
                   H(z) = 0.1 ×                     .   (5)
                                  z −4  × (1 − ρz −1 )         滤波器进而找出共振峰。本文采用 LPC 法提取共
                 本文提取 RASTA-PLP 特征以及该参数的一                      振峰参数。
             阶、二阶差分。
                                                               2 特征融合
             1.2 韵律学特征
                                                                   图 1 是组图,分别由汉语数据集、英语数据集、
                 韵律相比于文本内容,其所包含的信息相对
                                                               德语数据集测试得来。每一幅图的纵坐标都表示识
             较少,但韵律注重音高、快慢以及轻重等方面的变
                                                               别率,横坐标为情感特征,从左到右依次是谱特征:
             化  [18] ,能够帮助听者更好地理解语音信息中的重
                                                               MFCC,MFCC及其一阶、二阶差分,逆梅尔对数频
             点,使听者能够更快地获取有效信息,因而在情感识
                                                               谱系数,RASTA-PLP,RASTA-PLP 及其一阶、二
             别上具有明显的优势。本文提取语音的基音频率、
                                                               阶差分;韵律特征:基音频率,过零率,短时能量;音
             过零率、短时能量作为情感特征。
                                                               质特征:共振峰,共振峰一阶抖动,共振峰二阶抖动。
                 声带具有清音与浊音两种振动方式,其中浊音
                                                                   不同颜色的柱状图表示当前特征在不同分
             振动具有周期性,其振动频率便是基音频率。本文
                                                               类器上的识别结果。本文采用 BP 神经网络 (Back
             使用短时自相关函数法求取基音频率,对语音进行
                                                               propagation neutral network, BPNN)、随机森林
             分帧,通过比较原始信号与时延后的信号间的类似
                                                               (Random forest, RF)、支持向量机 (Support vector
             性来求取该特征,自相关函数如下:
                                                               machine, SVM )3种方式进行分类。可以看出,情感
                              N−m
                              ∑                                特征对分类器敏感,同一特征在不同分类器上的表
                      R i (k) =   x i (m)x i (m + k),   (6)
                              m=1                              现具有明显差异:谱相关特征在神经网络中具有较
             其中,k 是时延。使用式 (7) 和式 (8) 求取语音短时                    好的分类效果,而韵律学特征则对随机森林敏感;此
             能量和短时过零率:                                         外,语种也对识别率具有一定影响,汉语的识别率稍
                                                               低于英语、德语,这应该与日常的情感表达习惯有
                                N−1
                                ∑    2
                         E(i) =     x (m),              (7)    一定关系。
                                     i
                                m=0
                                                                   本文对 3 个数据集上具有最好表现的声学特
                       N−1
                     1  ∑                                      征:MFCC、基音频率、共振峰进行融合。该算法首
              Z(i) =       |sgn[x i (m)] − sgn[x i (m − 1)]|, (8)
                     2
                       m=0                                     先将提取出的 MFCC 特征矩阵 M、基音频率特征
             其中,x i (m)为第i帧语音信号,N 为帧长。                         向量T 、共振峰特征向量 F 作为输入,之后将 M 转
   55   56   57   58   59   60   61   62   63   64   65