Page 164 - 《应用声学》2022年第5期
P. 164

840                                                                                  2022 年 9 月


                             Conv2D block  Conv2D block  Conv2D block  Conv2D block  Flatten  抑郁个体,1 为抑郁个体,根据这个二元标签进行对
                                                               语声抑郁症的二分类。
                                                  Concatenate  Linear  softmax  2.2  剪接:将采访者的话语从原语声中剪掉,然后
                                                                    数据预处理


                             Maxpooling  BLSTM  Attention      剔除被采访者话语中小于1 s的片段,最后将被采访
                                                               者话语中大于 1 s 的片段进行拼接 (原始语声包含
                 MFCC feature
                                                               参与者和采访者,是一问一答的形式,参与者的每句
                                                               话都是对采访者问题的独立回答,是完整的一句话,
                图 2  基于 CNN 和 BLSTM-ATT 的特征融合模型
                                                               没有语意中断,参与者小于1 s的语声回答一般是语
               Fig. 2 Feature fusion model based on CNN and
               BLSTM-ATT                                       气词或者礼貌用语和杂音,对于实验是不需要的)。
                                                                   数据增强:本文采用的数据增强方法共有两种,
                 图2中CNN支路是由4 个Conv2D black组成,
                                                               包括添加噪声和改变音调             [18] 。(1) 添加噪声: 在语
             而每个 Conv2D black是个二维卷积块,里面由 5 个
                                                               声中添加随机噪声,提高模型的泛化能力,噪声因子
             部分组成:
                                                               设为 0.01。(2) 改变音调:改变语声信号的音调,扩
                 (1) 二维卷积层:卷积核大小为3 × 3,步长为1,
                                                               张倍数设为1.5。
             padding为1。
                                                                   语声切片:将拼接好的语声按15 s进行切分,总
                 (2) 归一化层:加速神经网络的收敛过程以及
                                                               共得到 5395 个样本 (其中 80% 用于训练,20% 用于
             提高训练过程中的稳定性            [16] 。
                                                               测试)进行训练和测试。
                 (3) Relu 层:引入非线性因素。
                                                               2.3  实验设置
                 (4) 最大池化层:核大小为 4 × 4,步长为 4 × 2,
                                                               2.3.1 特征提取
             对特征进行压缩,减小模型大小。
                 (5) Dropout 层:防止过拟合,提升模型泛化                        (1) MFCC:汉明窗,帧长25 ms,帧移10 ms,滤
             能力。                                               波器个数 26,对 189 个声频进行分帧, 最后每个声
                 BLSTM-ATT 支路是由一个最大池化层和一                       频得到(帧数,39)维数据。
                                                                   (2) 基频:汉明窗,帧长25 ms,帧移10 ms,最后
             个结合注意力机制的 BLSTM 层构成,最大池化层
             核大小为 2 × 4,步长大小为 2 × 4,BLSTM 的隐藏                  每个声频得到(帧数,1)维数据。
                                                                   (3) 共振峰:将数据集里自带的声频前5个共振
             层单元个数设为 128,最后通过拼接层将空间特征
                                                               峰特征结合参与者和采访者的对话内容记录,将只
             和上下文特征进行融合并分类。
                                                               有参与者声频的前 5 个共振峰特征提取出来,最后
             2 实验测试                                            每个声频得到(帧数,5)维数据。
                                                                   (4) 语谱图:汉明窗,帧长500 ms,帧移250 ms,
             2.1 数据集                                           将一帧设为一个块 (chunk),一组梅尔滤波器组包

                 采用公开的遇事分析访谈语料库 DAIC-WOZ                       含128个梅尔滤波器,最后每个声频得到(128, 126)
             中的数据集进行实验           [17] ,该数据集共 189 条数            维数据。
             据,其中抑郁 56 条,非抑郁 133 条,由 189 位参与者                      (5) Opensmile:使用的特征为Interspeech 2009
             和一位虚拟采访者 Ellie 共同录制,每段语声时长                        Emotion Challenge中的基准特征,所用窗函数为汉
             7 ∼ 33 min 不等,采样率 16 kHz。数据集包含录制                  明窗,帧长 25 ms,帧移 10 ms。特征包含过零率、能
             的声频文件、参与者和采访者的对话内容记录、声                            量、基频、谐波噪声比 1 ∼ 12 阶 MFCC,共 16 维的
             频提取的 Covarep 特征集、声频提取的前 5 个共振                     低级描述符 (Low-level descriptor, LLD),然后计算
             峰特征以及医生根据参与者自身健康调查表得分                             这16维LLD的一阶差分,可以得到32维LLD,最后
             结果进行的标签标记,标签中给出了问卷调查结果                            在这 32 维基础上应用均值、标准差等 12 个统计函
             的具体分数、性别以及是否抑郁的标注,其中 0为非                          数,每个声频得到(1, 384)维特征。
   159   160   161   162   163   164   165   166   167   168   169