Page 12 - 《应该声学》2022年第2期
P. 12

180                                                                                  2022 年 3 月


             300 ms 的数据均采用一样的 STFT 窗长,信号在各
             频点上的时间序列长度相同,因此分离信号满足统                            4 结论
             计独立性假设的程度类似。此外,当混响严重时,子
                                                                   本文提出了一种基于子带 t 分布的 Fast Aux-
             带划分的声源模型要比传统模型的性能提升更加
                                                               IVA 算法,采用更适合语声统计特性的子带 t 分布
             明显,这是因为随着分离难度的增加,分离算法对
                                                               声源模型,并结合秩 1更新的快速迭代方法,推导出
             声源模型的准确性要求更高,一个更精确的声源模
                                                               了改进的优化更新准则。该迭代准则避免了优化过
             型能够取得更好的分离结果。改进的基于子带 t 分
                                                               程中矩阵求逆操作,提高了分离算法的稳定性和计
             布的声源模型,在各混响条件下均取得了最优的分
                                                               算有效性。为了保证子带内各频点间具有统一的高
             离性能,这也进一步说明了该模型更适合语声分离
                                                               阶依赖性,算法首先采用无重叠的方式对频带进行
             任务。
                                                               划分。同时,为避免子带划分导致的带间顺序模糊
             3.5 不同算法的复杂度对比
                                                               性问题,本文利用一个全频子带建立子带间的依赖
                 除了分析不同算法的分离性能之外,本文也                           性。实验结果表明,相较于AuxIVA和Fast AuxIVA
             比较了上述 5 种算法在本文参数设置下的计算复                           算法,提出的方法可以在语声分离任务中进一步提
             杂度。与所提算法相似,子带 AuxIVA 和子带 Fast                     升分离性能。
             AuxIVA 的计算复杂度相较于各自对应的非子带模
             型而言,其区别在于重叠子带个数的设置。因此,子
             带 Fast AuxIVA 和所提出的算法具有相同的计算                                     参 考 文        献
             复杂度。各算法在更新参数时的复数乘法次数结果
             如图7所示。                                              [1] Wang D L, Chen J. Supervised speech separation based
                                                                   on deep learning: an overview[J]. IEEE/ACM Transac-
                  8                                                tions on Audio, Speech, and Language Processing, 2018,
                         AuxIVA
                  7      Fast AuxIVA                               26(10): 1702–1726.
                         ߕࣜAuxIVA                                [2] Common P. Independent component analysis, a new con-
                  6 5    ߕࣜ(tѬ࣋)Fast AuxIVA                        cept[J]. Signal Processing, 1994, 36(3): 287–314.
                 ܭ஝˲ข൓஝/10 8  4 3                                [3] Murata N, Ikeda S, Ziehe A. An approach to blind source

                                                                   separation based on temporal structure of speech sig-
                                                                   nals[J]. Neurocomputing, 2001, 41(1–4): 1–24.
                  2                                              [4] Sawada H, Mukai R, Araki S, et al. A robust and precise
                                                                   method for solving the permutation problem of frequency-
                  1
                                                                   domain blind source separation[J]. IEEE Transactions on
                  0                                                Speech and Audio Processing, 2004, 12(5): 530–538.
                     2   3  4   5  6   7  8   9  10  11
                                  Ѭሏᤰ᥋஝                          [5] Kang F, Yang F, Yang J. A low-complexity permutation
                                                                   alignment method for frequency-domain blind source sep-
                           图 7  计算复杂度对比                            aration[J]. Speech Communication, 2019, 115: 88–94.
                 Fig. 7 Computational complexity comparison      [6] Kim T, Attias H T, Lee S Y, et al. Blind source sepa-
                                                                   ration exploiting higher-order frequency dependencies[J].
                 从图 7 可以看出,各算法的计算复杂度差异                             IEEE Transactions on Speech and Audio Processing, 2006,
             随着分离通道数 (即分离声源个数) 的增加而愈加                              15(1): 70–79.
                                                                 [7] Ono N. Stable and fast update rules for indepen-
             明显。在所有算法中,Fast AuxIVA 并未进行子带
                                                                   dent vector analysis based on auxiliary function tech-
             划分,因此计算复杂度最低。子带 (t 分布) Fast                           nique[C]//2011 IEEE Workshop on Applications of Sig-
             AuxIVA 复杂度略高于 Fast AuxIVA,但却明显低                       nal Processing to Audio and Acoustics (WASPAA). IEEE,
             于未采用快速迭代的 AuxIVA 及其子带算法。结合                            2011: 189–192.
                                                                 [8] Choi C H, Chang W, Lee S Y. Blind source separation of
             分离结果可以看出,与 Fast AuxIVA 相比,子带 (t                       speech and music signals using harmonic frequency depen-
             分布) Fast AuxIVA在轻微增加计算代价的情况下,                         dent independent vector analysis[J]. Electronics Letters,
             实现了分离性能的明显提升;与传统 AuxIVA 和子                            2012, 48(2): 124–125.
                                                                 [9] Bezanson D E. Auxiliary function independent vector
             带AuxIVA相比,取得更好的分离结果的同时,显著
                                                                   analysis using a harmonic clique dependence model[D].
             地降低了计算复杂度。                                            San Diego: University of California, 2013.
   7   8   9   10   11   12   13   14   15   16   17