Page 164 - 《应用声学》2022年第5期

P. 164

840 2022 年 9 月

Conv2D block Conv2D block Conv2D block Conv2D block Flatten 抑郁个体，1 为抑郁个体，根据这个二元标签进行对
语声抑郁症的二分类。
Concatenate Linear softmax 2.2 剪接：将采访者的话语从原语声中剪掉，然后
数据预处理

Maxpooling BLSTM Attention 剔除被采访者话语中小于1 s的片段，最后将被采访
者话语中大于 1 s 的片段进行拼接 (原始语声包含
MFCC feature
参与者和采访者，是一问一答的形式，参与者的每句
话都是对采访者问题的独立回答，是完整的一句话，
图 2 基于 CNN 和 BLSTM-ATT 的特征融合模型
没有语意中断，参与者小于1 s的语声回答一般是语
Fig. 2 Feature fusion model based on CNN and
BLSTM-ATT 气词或者礼貌用语和杂音，对于实验是不需要的)。
数据增强：本文采用的数据增强方法共有两种，
图2中CNN支路是由4 个Conv2D black组成，
包括添加噪声和改变音调 [18] 。(1) 添加噪声: 在语
而每个 Conv2D black是个二维卷积块，里面由 5 个
声中添加随机噪声，提高模型的泛化能力，噪声因子
部分组成：
设为 0.01。(2) 改变音调：改变语声信号的音调，扩
(1) 二维卷积层：卷积核大小为3 × 3，步长为1，
张倍数设为1.5。
padding为1。
语声切片：将拼接好的语声按15 s进行切分，总
(2) 归一化层：加速神经网络的收敛过程以及
共得到 5395 个样本 (其中 80% 用于训练，20% 用于
提高训练过程中的稳定性 [16] 。
测试)进行训练和测试。
(3) Relu 层：引入非线性因素。
2.3 实验设置
(4) 最大池化层：核大小为 4 × 4，步长为 4 × 2，
2.3.1 特征提取
对特征进行压缩，减小模型大小。
(5) Dropout 层：防止过拟合，提升模型泛化 (1) MFCC：汉明窗，帧长25 ms，帧移10 ms，滤
能力。波器个数 26，对 189 个声频进行分帧, 最后每个声
BLSTM-ATT 支路是由一个最大池化层和一频得到(帧数，39)维数据。
(2) 基频：汉明窗，帧长25 ms，帧移10 ms，最后
个结合注意力机制的 BLSTM 层构成，最大池化层
核大小为 2 × 4，步长大小为 2 × 4，BLSTM 的隐藏每个声频得到(帧数，1)维数据。
(3) 共振峰：将数据集里自带的声频前5个共振
层单元个数设为 128，最后通过拼接层将空间特征
峰特征结合参与者和采访者的对话内容记录，将只
和上下文特征进行融合并分类。
有参与者声频的前 5 个共振峰特征提取出来，最后
2 实验测试每个声频得到(帧数，5)维数据。
(4) 语谱图：汉明窗，帧长500 ms，帧移250 ms，
2.1 数据集将一帧设为一个块 (chunk)，一组梅尔滤波器组包

采用公开的遇事分析访谈语料库 DAIC-WOZ 含128个梅尔滤波器，最后每个声频得到(128, 126)
中的数据集进行实验 [17] ，该数据集共 189 条数维数据。
据，其中抑郁 56 条，非抑郁 133 条，由 189 位参与者 (5) Opensmile：使用的特征为Interspeech 2009
和一位虚拟采访者 Ellie 共同录制，每段语声时长 Emotion Challenge中的基准特征，所用窗函数为汉
7 ∼ 33 min 不等，采样率 16 kHz。数据集包含录制明窗，帧长 25 ms，帧移 10 ms。特征包含过零率、能
的声频文件、参与者和采访者的对话内容记录、声量、基频、谐波噪声比 1 ∼ 12 阶 MFCC，共 16 维的
频提取的 Covarep 特征集、声频提取的前 5 个共振低级描述符 (Low-level descriptor, LLD)，然后计算
峰特征以及医生根据参与者自身健康调查表得分这16维LLD的一阶差分，可以得到32维LLD，最后
结果进行的标签标记，标签中给出了问卷调查结果在这 32 维基础上应用均值、标准差等 12 个统计函
的具体分数、性别以及是否抑郁的标注，其中 0为非数，每个声频得到(1, 384)维特征。

159 160 161 162 163 164 165 166 167 168 169