Page 81 - 201806
P. 81

第 37 卷 第 6 期         肖寒春等: 改进的梅尔倒谱系数在低空飞行器特征提取中的应用                                          911


             所使用的长度。然后使用离散余弦变换提取梅尔                             布并不相同。本文将针对螺旋桨驱动类低空飞行器
             系数:                                               的声信号特点对 MFCC 特征提取中的梅尔滤波器
                        M−1         (             )            进行改进,以获取更加有效、稳定的特征向量。
                        ∑             πn (m − 0.5)
                   c n =    s(m) cos                ,
                                           M                   3.1  低空飞行器声信号的分析
                        m=0
                        n = 1, 2, · · · , N,            (3)        低空空域内的飞行器大多采用发动机通过耦
                                                               合装置 (减速器和传动机) 驱动螺旋桨转动从而产
             此处 N 表示所有的梅尔系数的数量,梅尔系数构成
                                                               生推动力,产生的声信号主要来自于螺旋桨,其功率
             了MFCC特征向量。
                                                               谱分布主要取决于飞行器机身形状与螺旋桨转速。
             3 改进的MFCC特征提取方法                                   虽然在声信号的产生与传播中,飞行速度、倾斜角以
                                                               及气流都会对信号带来干扰,但是其固定的动力结
                 传统的 MFCC 特征提取方法在进行梅尔滤波                        构以及螺旋桨转速使得飞行器噪声会在特定谐波
             时,严格按照人耳的感应机制,将线性频率尺度转换                           上出现波峰,这种波峰对应的谐波频率分布相对稳
             成梅尔域。从梅尔滤波的公式中可以看出这种转变                            定,称为稳态强谐波。该类谐波表征了该飞行器的
             并不是线性的,也就是说人耳对语音的频率进行了                            结构特征,在特征提取时应该予以突出。图3为成年
             非线性处理,在频率低的地方转换曲线斜率大,高                            男子说话声与无人机 (无人机型号为 DJI Phantom
             频部分斜率较小,表明人耳对低频信号的敏感度高                            3 Professional)声信号的频谱分布,图4 为对应的时
             于高频信号。这种处理机制来源于生物的进化,而                            频谱图。
             这种进化是基于人耳可接收声信号的统计分布,所                                从图 4 中可以看出,语音信号具有很强的瞬态
             以 MFCC 技术在自然音频特别是语音信号的特征                          特性,而无人机声信号是稳态噪声,相比语音信号更
             提取上有很好的性能表现,但是这种普适性也导致                            加平稳。在语音识别系统中,MFCC 技术被用来对
             了其在某一特定场景中性能的下降,因为在特定场                            语音信号中的音素进行识别并取得了较好的识别
             景中,声信号的频率统计分布与语音信号的统计分                            效果。对于语音信号来说,不用的发声所包含的音素

                           0
                                                                 -20
                                                                 -40
                        ࣨए/dB  -50                              ࣨए/dB  -60
                                                                 -80
                                                                 -100
                        -100                                     -120
                            0         5        10        15         0         5        10        15
                                        ᮠဋ/kHz                                  ᮠဋ/kHz
                                     (a) ੇࣲႄߕឭភܦ                             (b) ௄̡఻ᣣ࠱٪ܦ

                                                     图 3  声信号的频谱
                                          Fig. 3 Frequency spectrum of acoustic signal


                       2.0                                       2.0
                                                        0        1.5                             0
                       1.5
                      ᮠဋ/kHz  1.0                       -50     ᮠဋ/kHz  1.0                      -50


                       0.5                                       0.5                             -100
                                                        -100
                        0                                         0
                         0     1    2     3    4                   0    1     2    3    4
                                   ௑ᫎ/s                                      ௑ᫎ/s
                              (a) ੇࣲႄߕឭភܦ                                (b) ௄̡఻ᣣ࠱٪ܦ
                                                    图 4  声信号的时频谱
                                              Fig. 4 Spectrum of acoustic signal
   76   77   78   79   80   81   82   83   84   85   86