Page 104 - 《应用声学》2021年第5期
P. 104
748 2021 年 9 月
但在实际中,基频及谐频之间的倍频关系并不 梳状滤波前后的 DEMON 谱如图 3 所示,滤波
严格,如谐频位置存在偏差或存在一定的谱峰宽度。 后谐波结构(线谱间的倍频关系)明显增强。
因此,DEMON 谱不能直接用式 (1) 描述,相应的也
1.3 深度分类网络
不能用式 (2) 的滤波器进行滤波。一种考虑了偏差
提取 DEMON 谱特征后,可以通过训练分类网
和谱峰宽度的滤波器为
络来估计基频。作者在文献 [26] 中提出过一种基于
h (q) = [g (q)] , (3)
+ CNN 网络的检测方法,利用小波变换对 DEMON
其中,g (q)为 谱特征去噪,然后将将净化谱特征输入 CNN 网络
1
来估计基频。但是,去噪可能会造成谱特征信息的
− β,
q
γ − cos(2πe ) 丢失,而且单纯采用 CNN 网络需要对较长的时间
g(q)= log 0.5 < q < log(K + 0.5), (4) 序列进行融合,影响实时性。本文去掉了去噪步骤,
同时在 CNN 网络上增加了 LSTM 网络,以期利用
0, 其他,
参数 K 是谐波个数,γ 代表谱峰宽度。在后面的实 LSTM 网络的时序建模能力去捕获低信噪比条件
验中K 取10,γ 取1.8,取β,使 下基频及其倍频的统计特性,提高基频估计的稳定
∫ 性和实时性。
1
( )
− β dq = 0.
q
γ − cos(2πe ) LSTM是循环神经网络(Recurrent neural net-
利用梳状滤波器进行滤波时,首先将特征信号 work, RNN) 的一种改进结构,具有 RNN 处理时间
映射至对数域,q = log f,然后将DEMON谱与滤波 序列信号能力的同时解决了 RNN 存在的长时依赖
器做卷积得到增强后的线谱特征: 问题,被广泛用于处理各种语声任务。LSTM 基
本单元结构如图 4 所示。其中,x t 为各时间步输入
Y (q) = Y (q) ⊗ g(−q). (5)
′
LSTM 单元的特征,h t 是各时间步 LSTM 单元的输
出,sig为sigmoid函数。
5
10
15 h t
20
ࣝ 25
30
C t֓ C t
35 tanh
40 i O
f
C
45
6.9 13.8 20.8 27.6 sig sig tanh sig
ᮠဋ/Hz
h t֓ h t
(a) ฉҒ
5 x t
10
15 图 4 LSTM 基本单元
20 Fig. 4 Cell of LSTM
ࣝ 25
30
网络的整体结构如图 5 所示,包含一个拥有 8
35
个 3 × 3 卷积核的卷积层、一个卷积核尺寸为 2 × 2
40
的池化层、一个含有 256 个神经元的 LSTM 层以及
45
6.9 13.8 20.8 27.6
一个大小为128的隐藏层和大小为 25的softmax 分
ᮠဋ/Hz
(b) ฉՑ 类层。注意,输出是 one-hot 向量,当基频的真实值
图 3 梳状滤波器对 DEMON 谱的增强效果 落在相应频率范围内时,该类值为1,其余为0。损失
Fig. 3 Enhancement to DEMON spectrum by the 函数采用交叉熵函数,网络使用 mini-batch 进行训
comb filtering 练。其中卷积层对输入的多通道DEMON谱特征进