Page 162 - 《应用声学》2022年第5期
P. 162

838                                                                                  2022 年 9 月


                                                               络 (Convolutional neural networks, CNN) 进行识
             0 引言                                              别,证明了 MFCC 在抑郁识别中的有效性。He

                                                               等 [9]  利 用 语 声 信 号 提 取 改 进 的 语 谱 图 特 征 和
                 抑郁症属于一种精神疾病,在临床上主要表现
                                                               eGeMAPS(Extended Geneva minimalistic acoustic
             为明显的长久性心境低落,主要由心理、生理等因
                                                               parameter set)特征集,利用深度卷积网络通过特征
             素引起,影响着患者的日常生活,长期性的治疗会造
                                                               融合进行识别,证明了改进的语谱图特征效果较好。
             成极大的经济负担,并可能导致极端的厌世,做出自
                                                               Sun 等 [10]  利用级联的 RF 进行语声、文本及视频的
             杀等行为,需要及时治疗           [1] 。
                                                               多模态抑郁识别,发现 RF 分类对抑郁识别有着较
                 可喜的是,抑郁症是一种可以治愈的疾病。目
                                                               好的效果。Ma等       [11]  提出了一种基于CNN+长短期
             前,诊断抑郁症的主要方法是靠医生根据患者对症
                                                               记忆神经网络 (Long-short term memory, LSTM)
             状的自我报告和心理健康问卷进行临床评估,这种
                                                               的深度模型DeepAudioNet 用于处理语声抑郁信号
             诊断方法的准确度主要依赖于患者对治疗的配合
                                                               的语谱图特征,证明了该模型的有效性。
             程度、对问卷的理解程度以及医师的专业水平和经
                                                                   国内对语声抑郁识别研究较为著名的是兰州
             验。随着社会的飞速发展,人们处于快节奏、高压力
                                                               大学的普适计算实验室基于国家 973 项目支持                    [12] ,
             的生活中,抑郁症患者数量不断攀升,抑郁症的诊断
                                                               与北京安定医院和兰州大学第二附属医院等著名
             面临着医生短缺的问题。因此,通过计算机技术提
                                                               医院合作,通过实地采集被试者的语声信号,基于语
             供一种客观有效的方法迫在眉睫。
                                                               声分析进行抑郁症识别并评估被试者抑郁的严重
                 近年来,很多研究者致力于利用生物、生理、行
                                                               程度,整个实验的过程全部是由该实验组完成,未采
             为等多模态去对抑郁症患者的患病情况进行评估,
                                                               用国外的抑郁症语声库,通过实验达到 78.9% 的识
             语声、血浆蛋白、面部表情、眼球移动、体态、步态、
                                                               别率。考虑到患者隐私等问题,其数据集是不对外
             脑电、核磁等多种信息被用于抑郁识别的研究之中。
                                                               公开的,无法获取。湖南师范大学从生物信息研究
             由于声音状态与情绪密切相关               [2] ,且语声具有非侵
                                                               方向出发,利用医疗上功能磁共振方法从医学专业
             入、易获取、低成本等优势,基于语声信号的抑郁检
                                                               层面来进行抑郁症识别,实现了 84.21% 的识别率,
             测成为近几年的研究热点之一              [3] 。
                                                               该研究方法也为国内现阶段基于生理信号进行抑
                 语声情感识别的通常做法是先进行特征选择。
                                                               郁症识别起到了一定程度上的借鉴意义。刘美                       [13]
             特征的选择直接关系到情感识别结果的好坏,常
                                                               从语声出发,利用语谱图特征,结合生成式对抗网络
             用的声频特征有梅尔频率倒谱系数 (Mel-frequency
                                                               和CNN来进行抑郁症识别,实现了62%的识别率。
                                        [4]
             cepstrum coefficient, MFCC) 、语谱图       [5] 、共振
                                                                   本文探究了几种经典的传统手工特征对抑郁
             峰  [6]  等。提取特征后再采用分类算法来研究特征
                                                               症识别的效果,在基础的 LSTM 模型上引入注意力
             与抑郁程度之间的关系,分类方法分为机器学习和
                                                               机制,通过对比发现,注意力机制对于语声抑郁识别
             深度学习两类,经典的机器学习方法包括高斯混合
                                                               效果有着一定的提高,在此模型的基础上进行改进,
             模型 (Gaussian mixture model, GMM)、支持向量
                                                               提出了 CNN 和结合注意力机制的双向长短时记忆
             回归 (Support vector regression, SVR)、随机森林
                                                               (Bidirectional long short-term memory, BLSTM)
             (Random forest, RF) [7]  等。随着近几年计算机的发
                                                               特征融合模型,经过实验测试,取得了较好的语声抑
             展,深度学习取得了突破性的进展,与机器学习方法
                                                               郁识别结果。
             相比,深度学习可以更好地提取高层语义特征,适应
             性强,易于迁移。                                          1 分类算法
                 国外对语声抑郁识别的研究相比国内较早,
             一 些 研 究 人 员 发 现 并 证 实 了 人 的 声 频 特 征 与             1.1  结合注意力机制的BLSTM模型
             抑 郁 症 之 间 有 着 明 显 的 相 关 性, 这 给 利 用 语                  注意力机制的提出受人类自身的启发:比如在
             声信号来识别抑郁症提供了理论基础。Rejaibia                         看一个场景的时候,不会每次都把场景内的所有东
             等  [8]  提出将 MFCC 及基频特征送进卷积神经网                     西全部看一遍,而是只看感兴趣的东西                  [14] 。换句话
   157   158   159   160   161   162   163   164   165   166   167