Page 124 - 应用声学2019年第2期
P. 124

270                                                                                  2019 年 3 月


             以控制记忆细胞到网络其他结构单元的信息流;在                            输入向量,通过有监督预训练 LSTM 模型,得到网
             反向传播过程中,输入门用以控制迭代误差流出记                            络模型参数最优解并保存,用以对未知类别噪声信
             忆细胞,输出门用以控制迭代误差流入记忆细胞。                            号进行识别分类,其流程图如图3所示。
             而遗忘门则用以控制记忆细胞内部的循环状态,决
             定信息的取舍或遗忘。通过这种门控机制,LSTM                              ᮕ          ዝѿ
                                                                  ฾
             网络得以控制单元内的信息流动,使其具备了保                                Ѭ
                                                                  ዝ         Ѭዝ٨
             存长时间信息的能力,即 “记忆” 能力,并使其在训
             练过程中能够防止内部梯度受外部干扰,避免了梯                                       Ꭺፏവیྲढ़                    വیᣥѣ
             度弥散和梯度爆炸问题,其基本结构单元如图 2 所                             വ
                                                                  ی
             示  [16] 。                                            ᝫ       ܳࡏLSTMᎪፏ         വی͖ӑ     ૯ܿឨࣀ
                                                                  ጷ
                 设单个 LSTM记忆块的输入向量为 x t ,输出向
                                                                       ѳѬᝫጷ฾តᬷnjಖюӑ                  ေ᝷ᣥѣ
             量为y t ,前向传播公式可表述为           [17]
                 (1)长期记忆单元C t 更新过程                                    Ѭࣝ/ၷੇMFCCྲढ़஝૶

                     f t = σ(W f × [h t−1 , x t ] + b f ),  (8)          ඵʾᄬಖ٪ܦ஝૶
                     i t = σ(W i × [h t−1 , x t ] + b i ),  (9)
                                                                         图 3  MFCC 智能识别分类流程图
                     ˜
                    C t = tanh(W c × [h t−1 , x t ] + b c ),  (10)  Fig. 3 Intelligent recognition process of MFCC
                                        ˜
                    C t = f t · C t−1 + i t · C t ,    (11)
                                                                   对水下声目标信号样本作分帧处理,依据公
             其中,f t 代表遗忘门,i t 代表输入门。在每一个时刻,
                                                               式 (1)∼(7)MFCC 特征提取过程,获取各帧包含 36
             遗忘门会控制上一时刻记忆的遗忘程度,而输入门
                                                               个特征参数的 MFCC 特征向量 T n ,这 36 个特征参
                          ˜                              ˜
             则控制新记忆 C t 写入长期记忆的程度。f t 、i t 、C t
                                                               数由 12 个 MFCC 参数、12 个一阶差分梅尔频率倒
             都是与上一时刻的短期记忆 h t−1 和当前时刻输入
                                                               谱系数和 12 个二阶差分梅尔频率倒谱系数共同组
             x t 相关的函数,其中,σ 是 sigmoid 函数,取值范围
                                                               成;按各帧时间先后顺序,生成各样本 MFCC 特征
             [0,1],tanh 函数取值范围 [−1, 1]。另外,式 (8)∼(10)
                                                               数据D 作为LSTM网络输入向量,
             中W f 、W i 、W c 分别为遗忘门、输入门及C t 更新过
             程的权重参数,b f 、b i 、b c 分别为这三个过程对应的                               D = {T 1 , T 2 , · · · , T m } ,  (14)
             偏置参数。                                             其中,m为帧数。
                 (2)短期记忆单元h t 更新过程                                 基于 MFCC 特征的智能识别分类方法主要包

                      o t = σ(W o × [h t−1 , x t ] + b o ),  (12)  括数据预处理、模型训练、预测分类几个功能模块。
                                                                   通过前期数据预处理过程,获取目标噪声的
                      h t = o t · tanh(C t ),          (13)
                                                               MFCC 特征向量,采用基于时间的反向传播 (Back
             其中,o t 表示输出门,控制着短期记忆如何受长期
                                                               propagation trough time, BPTT) 算法,对 LSTM
             记忆影响,式 (12)∼(13) 中 W o 、b o 分别为输出门的
                                                               网络展开训练,通过逐步减小模型输出与理论输出
             权重和偏置参数。
                                                               误差,得到网络模型参数最优解,最终训练好的网络
             1.3 MFCC特征智能识别分类                                  模型可用于对未知目标噪声的识别分类。该识别分

                 由于门控机制的作用,使LSTM 细胞单元具备                        类过程全程不需要人的参与,通过对水下无人平台
             “记忆” 能力,因此常被用来处理带有时间序列性质                          加装具备 MFCC 特征提取及 LSTM 识别分类能力
             的问题,如语音识别、自然语言处理等。水下声目标                           的信号处理设备,将声学传感器实时获取的水下声
             信号同样带有时间序列特性,另外,经分帧处理获取                           信号进行 MFCC 特征提取,获取初始特征向量,作
             的 MFCC 特征数据之间存在时空连续性。因此,本                         为 LSTM 预测分类模型的输入,经模型的预测分类
             文将获取的噪声信号 MFCC 特征数据作为 LSTM                        过程,可实时获取所探测目标的类别属性。
   119   120   121   122   123   124   125   126   127   128   129