Page 162 - 《应用声学》2022年第5期
P. 162
838 2022 年 9 月
络 (Convolutional neural networks, CNN) 进行识
0 引言 别,证明了 MFCC 在抑郁识别中的有效性。He
等 [9] 利 用 语 声 信 号 提 取 改 进 的 语 谱 图 特 征 和
抑郁症属于一种精神疾病,在临床上主要表现
eGeMAPS(Extended Geneva minimalistic acoustic
为明显的长久性心境低落,主要由心理、生理等因
parameter set)特征集,利用深度卷积网络通过特征
素引起,影响着患者的日常生活,长期性的治疗会造
融合进行识别,证明了改进的语谱图特征效果较好。
成极大的经济负担,并可能导致极端的厌世,做出自
Sun 等 [10] 利用级联的 RF 进行语声、文本及视频的
杀等行为,需要及时治疗 [1] 。
多模态抑郁识别,发现 RF 分类对抑郁识别有着较
可喜的是,抑郁症是一种可以治愈的疾病。目
好的效果。Ma等 [11] 提出了一种基于CNN+长短期
前,诊断抑郁症的主要方法是靠医生根据患者对症
记忆神经网络 (Long-short term memory, LSTM)
状的自我报告和心理健康问卷进行临床评估,这种
的深度模型DeepAudioNet 用于处理语声抑郁信号
诊断方法的准确度主要依赖于患者对治疗的配合
的语谱图特征,证明了该模型的有效性。
程度、对问卷的理解程度以及医师的专业水平和经
国内对语声抑郁识别研究较为著名的是兰州
验。随着社会的飞速发展,人们处于快节奏、高压力
大学的普适计算实验室基于国家 973 项目支持 [12] ,
的生活中,抑郁症患者数量不断攀升,抑郁症的诊断
与北京安定医院和兰州大学第二附属医院等著名
面临着医生短缺的问题。因此,通过计算机技术提
医院合作,通过实地采集被试者的语声信号,基于语
供一种客观有效的方法迫在眉睫。
声分析进行抑郁症识别并评估被试者抑郁的严重
近年来,很多研究者致力于利用生物、生理、行
程度,整个实验的过程全部是由该实验组完成,未采
为等多模态去对抑郁症患者的患病情况进行评估,
用国外的抑郁症语声库,通过实验达到 78.9% 的识
语声、血浆蛋白、面部表情、眼球移动、体态、步态、
别率。考虑到患者隐私等问题,其数据集是不对外
脑电、核磁等多种信息被用于抑郁识别的研究之中。
公开的,无法获取。湖南师范大学从生物信息研究
由于声音状态与情绪密切相关 [2] ,且语声具有非侵
方向出发,利用医疗上功能磁共振方法从医学专业
入、易获取、低成本等优势,基于语声信号的抑郁检
层面来进行抑郁症识别,实现了 84.21% 的识别率,
测成为近几年的研究热点之一 [3] 。
该研究方法也为国内现阶段基于生理信号进行抑
语声情感识别的通常做法是先进行特征选择。
郁症识别起到了一定程度上的借鉴意义。刘美 [13]
特征的选择直接关系到情感识别结果的好坏,常
从语声出发,利用语谱图特征,结合生成式对抗网络
用的声频特征有梅尔频率倒谱系数 (Mel-frequency
和CNN来进行抑郁症识别,实现了62%的识别率。
[4]
cepstrum coefficient, MFCC) 、语谱图 [5] 、共振
本文探究了几种经典的传统手工特征对抑郁
峰 [6] 等。提取特征后再采用分类算法来研究特征
症识别的效果,在基础的 LSTM 模型上引入注意力
与抑郁程度之间的关系,分类方法分为机器学习和
机制,通过对比发现,注意力机制对于语声抑郁识别
深度学习两类,经典的机器学习方法包括高斯混合
效果有着一定的提高,在此模型的基础上进行改进,
模型 (Gaussian mixture model, GMM)、支持向量
提出了 CNN 和结合注意力机制的双向长短时记忆
回归 (Support vector regression, SVR)、随机森林
(Bidirectional long short-term memory, BLSTM)
(Random forest, RF) [7] 等。随着近几年计算机的发
特征融合模型,经过实验测试,取得了较好的语声抑
展,深度学习取得了突破性的进展,与机器学习方法
郁识别结果。
相比,深度学习可以更好地提取高层语义特征,适应
性强,易于迁移。 1 分类算法
国外对语声抑郁识别的研究相比国内较早,
一 些 研 究 人 员 发 现 并 证 实 了 人 的 声 频 特 征 与 1.1 结合注意力机制的BLSTM模型
抑 郁 症 之 间 有 着 明 显 的 相 关 性, 这 给 利 用 语 注意力机制的提出受人类自身的启发:比如在
声信号来识别抑郁症提供了理论基础。Rejaibia 看一个场景的时候,不会每次都把场景内的所有东
等 [8] 提出将 MFCC 及基频特征送进卷积神经网 西全部看一遍,而是只看感兴趣的东西 [14] 。换句话