Page 6 - 《应该声学》2022年第2期
P. 6

174                                                                                  2022 年 3 月

                                                               1 快速AuxIVA算法
             0 引言

                                                               1.1  混合和分离模型
                 盲源分离 (Blind source separation, BSS) 旨在
                                                                   假设正定 BSS 中 N 个声源信号由 N 个传声器
             将感兴趣的信号从混合信号当中分离出来,可广
                                                               信号接收,声源信号、估计的声源信号以及观测信
             泛应用于声频信号处理领域,其中一个重要应用是
                                                               号的频域复数表示分别为
             语声分离。相较于有监督的分离算法                  [1] ,BSS 可以
                                                                                                 T
             在没有任何传输信道信息和声源先验信息的情况                                      s ij = (s ij,1 , s ij,2 , · · · , s ij,N ) ,  (1)
                                                                                                 T
             下从卷积混合的观测信号中无监督地分离出原始                                      y ij = (y ij,1 , y ij,2 , · · · , y ij,N ) ,  (2)
             声源。频域独立成分分析 (Independent component                         x ij = (x ij,1 , x ij,2 , · · · , x ij,N ) ,  (3)
                                                                                                  T
             analysis, ICA) [2−5]  作为解决卷积 BSS 问题的一类
                                                               其中,i = 1, 2, · · · , I 为频率索引 (I 为频点数),
             广泛且经典的方法,需要在各个频点上独立建模
                                                               j = 1, 2, · · · , J 为时间索引 (J 是帧数),(·) 表示矩
                                                                                                     T
             并独立分离源信号的各个频率成分,因此无法确
                                                               阵转置。经过短时傅里叶变换 (Short-time Fourier
             保不同频点间声源顺序的一致性,即存在顺序模糊
                                                               transform, STFT) 后,时域卷积混合模型可以变换
             性问题。独立向量分析 (Independent vector analy-
                                                               到频域瞬时混合模型,
             sis, IVA) [6]  以及其改进的辅助函数 IVA(Auxiliary-
             function IVA, AuxIVA) [7]  通过在全频带建立球对                              x ij = A i s ij ,         (4)
             称联合概率密度函数,使得同一声源的各频率成                             其中,A i 是N × N 的混合矩阵。当A i 可逆时,混合
             分具有统一的频间依赖性,有效地减轻了顺序模                                                          H
                                                               矩阵 W i = (w i1 , w i2 , · · · , w iN ) 可以被定义成 A i
             糊性问题,提高了分离性能。然而,统一的频间依                            的逆矩阵,因此分离信号 y ij 可以通过以下公式恢
             赖假设导致声源模型缺少灵活性,可能导致子带                             复得到,
             间出现顺序错排的问题。为了更好地表征声频信
                                                                                y ij = W i x ij ,         (5)
             号中相近频点或谐波频点的依赖性要强于较远频
                                                                                                 T
             点的特点,基于子带依赖性假设的声源模型                      [8−10]   其中,w i,n = (w i,n1 , w i,n2 , · · · , w i,nN ) 是第 n个声
                                                                               H
             被提出以用于增强相关频点、弱化不相关频点的                             源的分离向量,(·) 表示矩阵共轭转置。
             依赖性。此外,为了提高 AuxIVA 算法的收敛速                         1.2  声源估计的快速迭代算法
             度和稳定性,改进的快速迭代 IVA(本文简称 Fast
                                                                   在 IVA 中,根据式 (5) 以及声源间的独立性假
             AuxIVA) 算法   [11]  通过秩 1 更新的方式来估计分离
                                                               设,观测信号 x ij 在所有时间帧上的负对数似然函
             信号,避免估计分离滤波器带来的矩阵求逆,降
                                                               数可表示为
             低计算复杂度和数值不稳定性,但并未提升分离
                                                                          I
             性能。                                                   L({W i } i=1 )
                                                                                                 ]
                                                                        [ ∏
                 为了进一步提升 IVA 算法在语声分离任务中                         = − log      p(x j,1 , x j,2 , · · · , x j,N )
                                                                            j
             的分离性能和稳定性,本文提出一种基于子带声源                                     { ∏ [( ∏          ) ∏            ]}
                                                                = − log             p(y j,n ) ·  | det W i | 2
             模型的快速 IVA 算法,并采用更适合语声信号重尾                                      j     n             i
                                                                                     ∑
             特性的t分布      [12]  作为声源概率密度函数。该算法首                  = − 2J log | det W i | +  G(y j,n ),      (6)
             先根据信号特性将全频带划分为多个子带,其中包                                                   j,n
             含一个重叠子带,在各个子带内假设声源服从联合                            其中,G(y j,n ) = − log p(y j,n ) 为对比函数。在超高
             t 分布,由于子带间的重叠设置使得各个子带间依                           斯假设下,声源的概率密度函数p(y j,n )可表示为
             然具有频间依赖性。此外,该算法将声源模型联合                                             (   (√  ∑        2  ))
                                                                   p(y j,n ) ∼ exp −G       |y ij,n |  ,  (7)
             秩 1 更新方法,推导出新的空间模型参数优化准则,                                                     i
             在基于子带 t 分布的声源模型下实现混合语声信号                          其中,G(·) 需要满足 φ(r) = G (r)/(2r) 在 r > 0 时
                                                                                           ′
             的快速分离。实验结果表明,本文提出的算法能够                            单调递减,(·) 表示微分。分离矩阵 W i 可以通过最
                                                                           ′
                                                                                       (        )
             在少量的迭代次数下取得比目前已有的 IVA 算法                          小化式(6) 中的目标函数L {W i }         I   得到,进而估
                                                                                             i=1
             更好的语声分离性能。                                        计出分离信号y ij 。
   1   2   3   4   5   6   7   8   9   10   11