Page 104 - 《应用声学》2021年第5期
P. 104

748                                                                                  2021 年 9 月


                 但在实际中,基频及谐频之间的倍频关系并不                              梳状滤波前后的 DEMON 谱如图 3 所示,滤波
             严格,如谐频位置存在偏差或存在一定的谱峰宽度。                           后谐波结构(线谱间的倍频关系)明显增强。
             因此,DEMON 谱不能直接用式 (1) 描述,相应的也
                                                               1.3  深度分类网络
             不能用式 (2) 的滤波器进行滤波。一种考虑了偏差
                                                                   提取 DEMON 谱特征后,可以通过训练分类网
             和谱峰宽度的滤波器为
                                                               络来估计基频。作者在文献 [26] 中提出过一种基于
                            h (q) = [g (q)] ,           (3)
                                        +                      CNN 网络的检测方法,利用小波变换对 DEMON
             其中,g (q)为                                         谱特征去噪,然后将将净化谱特征输入 CNN 网络
                             1
                                                              来估计基频。但是,去噪可能会造成谱特征信息的
                                   − β,
                                 q
                     γ − cos(2πe )                            丢失,而且单纯采用 CNN 网络需要对较长的时间
                     
               g(q)=       log 0.5 < q < log(K + 0.5),  (4)    序列进行融合,影响实时性。本文去掉了去噪步骤,
                     
                     
                     
                                                              同时在 CNN 网络上增加了 LSTM 网络,以期利用
                       0,  其他,
             参数 K 是谐波个数,γ 代表谱峰宽度。在后面的实                         LSTM 网络的时序建模能力去捕获低信噪比条件
             验中K 取10,γ 取1.8,取β,使                               下基频及其倍频的统计特性,提高基频估计的稳定
                     ∫                                         性和实时性。
                               1
                        (                 )
                                      − β dq = 0.
                                    q
                         γ − cos(2πe )                             LSTM是循环神经网络(Recurrent neural net-
                 利用梳状滤波器进行滤波时,首先将特征信号                          work, RNN) 的一种改进结构,具有 RNN 处理时间
             映射至对数域,q = log f,然后将DEMON谱与滤波                     序列信号能力的同时解决了 RNN 存在的长时依赖
             器做卷积得到增强后的线谱特征:                                   问题,被广泛用于处理各种语声任务。LSTM 基
                                                               本单元结构如图 4 所示。其中,x t 为各时间步输入
                         Y (q) = Y (q) ⊗ g(−q).         (5)
                           ′
                                                               LSTM 单元的特征,h t 是各时间步 LSTM 单元的输
                                                               出,sig为sigmoid函数。
                     5
                    10
                    15                                                                            h t
                    20
                   ࣝ஝  25

                    30
                                                                   C t֓                               C t
                    35                                                                        tanh
                    40                                                          i         O
                                                                          f
                                                                                     C
                    45
                         6.9    13.8 20.8 27.6                            sig  sig  tanh  sig
                                    ᮠဋ/Hz
                                                                   h t֓                               h t
                                   (a) ໚ฉҒ
                     5                                                   x t
                    10
                    15                                                       图 4  LSTM 基本单元
                    20                                                       Fig. 4 Cell of LSTM
                   ࣝ஝  25
                    30
                                                                   网络的整体结构如图 5 所示,包含一个拥有 8
                    35
                                                               个 3 × 3 卷积核的卷积层、一个卷积核尺寸为 2 × 2
                    40
                                                               的池化层、一个含有 256 个神经元的 LSTM 层以及
                    45
                         6.9    13.8  20.8  27.6
                                                               一个大小为128的隐藏层和大小为 25的softmax 分
                                    ᮠဋ/Hz
                                   (b) ໚ฉՑ                     类层。注意,输出是 one-hot 向量,当基频的真实值
                  图 3  梳状滤波器对 DEMON 谱的增强效果                     落在相应频率范围内时,该类值为1,其余为0。损失
                Fig. 3 Enhancement to DEMON spectrum by the    函数采用交叉熵函数,网络使用 mini-batch 进行训
                comb filtering                                  练。其中卷积层对输入的多通道DEMON谱特征进
   99   100   101   102   103   104   105   106   107   108   109