Page 84 - 《应用声学》2023年第1期
P. 84
80 2023 年 1 月
Convolutional Bank,H 表示 Highway network,G 其中,c t,k 、c ′ t,k 分别是来自原始和合成语声中的第
表示 Bidirectional GRU),能够通过正向传播和反 t 帧的第 k 个梅尔倒谱系数 (Mel frequency cepstral
向传播来修正每一帧的错误,以此来提高声频质 coefficient, MFCC),其中跳过c t,0 ,因为 0 阶MFCC
量 [33] 。 反映的是频谱能量。本实验对合成的 4 种情感分别
ܦᮠၷੇ 进行MCD计算,其结果如表1所示。
表 1 合成语声不同情感的 MCD
࠷៨ڏ
Table 1 MCD of different emotions in syn-
thetic speech
Griffin-Lim CBHG
情感 MCD
愤怒 4.40
ᝍᆊ٨
开心 4.59
ৱਖᎄᆊ٨
伤心 4.36
ឭភ̡ᎄᆊ٨ ܳ݀ฌਓҧ҄ 惊讶 6.29
平均 4.91
వᎄᆊ٨
MCD 平均值为 4.91,根据文献 [35] 中的研究,
వᮕܫေᣥК 当MCD值低于8时,合成的语声能被语声识别系统
所识别,从而应用于语声交互中。因此本实验的语
图 5 低资源儿童情感语声合成模型框架
声合成质量较为优良,然而惊讶情感的合成质量较
Fig. 5 Children emotional speech synthesis model
差的结果仍有待进一步探究。
3 实验结果与分析 对于情感语声的客观评价,在保证语声质量的
条件下本实验对合成语声的情感质量使用语声情
本实验将从主观和客观两个维度对合成的语
感识别的方式进行测评。由于合成的语声数据量在
声进行评价。其中客观评价采用情感语声识别的不
100 句左右,实验采用支持向量机 (Support vector
加权平均召回率 (Unweighted average recall rate,
machine, SVM) 建立情感识别模型,适用于小样本
UAR),对成人情感语声合成结果和儿童情感语声
的分类模型。
合成结果进行对比。主观听辨实验采用平均意见得
在语声情感识别过程中,不同的情感特征对
分 (Mean opinion score, MOS) 和情感相似度平均
于最终的识别效果存在重要影响。提取以及选择
意见得分(Emotional mean opinion score, EMOS),
能够有效反映情感变化的语声特征是语声情感识
其目的是对合成语声从自然度和情感度两个维度
别领域目前最重要的问题之一 [36] 。本实验采用
上进行评价。
eGeMAPS 声学特征集,eGeMAPS 虽仅有 88 维特
3.1 客观实验结果
征,但涵盖了多种韵律特征、基于谱的特征以及音
本文的客观实验采用检测语声合成质量的梅 质特征 [1] 。
尔倒谱失真 (Melcepstral distortion, MCD) [34] 方 混淆矩阵的结果能详细表现出情感之间的分
式以及机器学习的语声情感识别方法。
类情况及误判情况,它的横向表示实际的结果,纵向
MCD 是一种用来检测语声质量的客观评价指
表示预测的结果,从左上到右下的对角线表示的是
标,衡量两个梅尔倒谱序列之间差异的量度,MCD
预测正确的值,其余是误分值,合成语声的混淆矩阵
越小表示其合成的语声与原始语声越为相似,计算
如图6所示。
方式如下:
通过对比模型合成的成人情感语声和儿童情
v
T −1 u K
1 ∑ u∑ ( ) 2 感语声的混淆矩阵可以看出,其迁移效果较为
MCD K = t c (t,k) − c ′ (t,k) , (3)
T 良好。
t=0 k=1