Page 164 - 《应用声学》2022年第5期
P. 164
840 2022 年 9 月
Conv2D block Conv2D block Conv2D block Conv2D block Flatten 抑郁个体,1 为抑郁个体,根据这个二元标签进行对
语声抑郁症的二分类。
Concatenate Linear softmax 2.2 剪接:将采访者的话语从原语声中剪掉,然后
数据预处理
Maxpooling BLSTM Attention 剔除被采访者话语中小于1 s的片段,最后将被采访
者话语中大于 1 s 的片段进行拼接 (原始语声包含
MFCC feature
参与者和采访者,是一问一答的形式,参与者的每句
话都是对采访者问题的独立回答,是完整的一句话,
图 2 基于 CNN 和 BLSTM-ATT 的特征融合模型
没有语意中断,参与者小于1 s的语声回答一般是语
Fig. 2 Feature fusion model based on CNN and
BLSTM-ATT 气词或者礼貌用语和杂音,对于实验是不需要的)。
数据增强:本文采用的数据增强方法共有两种,
图2中CNN支路是由4 个Conv2D black组成,
包括添加噪声和改变音调 [18] 。(1) 添加噪声: 在语
而每个 Conv2D black是个二维卷积块,里面由 5 个
声中添加随机噪声,提高模型的泛化能力,噪声因子
部分组成:
设为 0.01。(2) 改变音调:改变语声信号的音调,扩
(1) 二维卷积层:卷积核大小为3 × 3,步长为1,
张倍数设为1.5。
padding为1。
语声切片:将拼接好的语声按15 s进行切分,总
(2) 归一化层:加速神经网络的收敛过程以及
共得到 5395 个样本 (其中 80% 用于训练,20% 用于
提高训练过程中的稳定性 [16] 。
测试)进行训练和测试。
(3) Relu 层:引入非线性因素。
2.3 实验设置
(4) 最大池化层:核大小为 4 × 4,步长为 4 × 2,
2.3.1 特征提取
对特征进行压缩,减小模型大小。
(5) Dropout 层:防止过拟合,提升模型泛化 (1) MFCC:汉明窗,帧长25 ms,帧移10 ms,滤
能力。 波器个数 26,对 189 个声频进行分帧, 最后每个声
BLSTM-ATT 支路是由一个最大池化层和一 频得到(帧数,39)维数据。
(2) 基频:汉明窗,帧长25 ms,帧移10 ms,最后
个结合注意力机制的 BLSTM 层构成,最大池化层
核大小为 2 × 4,步长大小为 2 × 4,BLSTM 的隐藏 每个声频得到(帧数,1)维数据。
(3) 共振峰:将数据集里自带的声频前5个共振
层单元个数设为 128,最后通过拼接层将空间特征
峰特征结合参与者和采访者的对话内容记录,将只
和上下文特征进行融合并分类。
有参与者声频的前 5 个共振峰特征提取出来,最后
2 实验测试 每个声频得到(帧数,5)维数据。
(4) 语谱图:汉明窗,帧长500 ms,帧移250 ms,
2.1 数据集 将一帧设为一个块 (chunk),一组梅尔滤波器组包
采用公开的遇事分析访谈语料库 DAIC-WOZ 含128个梅尔滤波器,最后每个声频得到(128, 126)
中的数据集进行实验 [17] ,该数据集共 189 条数 维数据。
据,其中抑郁 56 条,非抑郁 133 条,由 189 位参与者 (5) Opensmile:使用的特征为Interspeech 2009
和一位虚拟采访者 Ellie 共同录制,每段语声时长 Emotion Challenge中的基准特征,所用窗函数为汉
7 ∼ 33 min 不等,采样率 16 kHz。数据集包含录制 明窗,帧长 25 ms,帧移 10 ms。特征包含过零率、能
的声频文件、参与者和采访者的对话内容记录、声 量、基频、谐波噪声比 1 ∼ 12 阶 MFCC,共 16 维的
频提取的 Covarep 特征集、声频提取的前 5 个共振 低级描述符 (Low-level descriptor, LLD),然后计算
峰特征以及医生根据参与者自身健康调查表得分 这16维LLD的一阶差分,可以得到32维LLD,最后
结果进行的标签标记,标签中给出了问卷调查结果 在这 32 维基础上应用均值、标准差等 12 个统计函
的具体分数、性别以及是否抑郁的标注,其中 0为非 数,每个声频得到(1, 384)维特征。