Page 6 - 《应用声学》2022年第6期
P. 6

852                                                                                 2022 年 11 月


                                                               置发生变化时,通过初始化滤波器系数以提高算法
             0 引言
                                                               的稳定性和收敛速度。
                 由于墙壁、地板或天花板的反射,在封闭空间
                                                               1 基于RLS的MCLP去混响方法
             (如会议室) 采集的语声信号将不可避免地包含混
             响  [1] 。混响会降低语声信号的清晰度和质量,影响                       1.1  MCLP去混响算法模型
             自动语声识别和助听器系统的性能                  [2−3] 。混响语           传声器阵列模型如图 1 所示,假设房间里仅有
             声信号由直达声 (Direct sound)、早期反射 (Early                一个声源,利用均匀线性传声器阵列进行语声信号
             reflection) 和晚期混响 (Late reverberation) 三部分         采集,共有M 个远场传声器。
             组成。直达声是不经反射,直接从声源发出被传声
             器收集到的声音;紧随直达声音的,被称作早期反
             射,它通常由反射次数较少的强反射构成;最后一                                                                ܦູ
             部分是由一系列难以区分的反射构成,称作晚期混                                                     ࣱ᭧ฉҒ
             响  [4] 。早期的反射分量并不会引起混响效应,反而
             会增强语声的清晰度。因此,晚期反射分量是混响
             效应中造成语声感知质量下降的主要原因。“去混                                       θ
                                                                          ⊲    ⊲     ⊲  d
             响”(Dereverberation) 的目的就是在保留语声直达
                                                                     x M ↼t↽        x  ↼t↽  x  ↼t↽
             分量和早期反射分量的同时,减少所获取信号中的
             晚期混响分量。                                                         图 1  传声器阵列模型
                 Lebart 等 [5]  提出了一种基于谱增强的单通道                            Fig. 1 Microphone array model
             语声去混响技术,并由 Habets          [6]  将其推广到多通道              MCLP 算法在时域建模时,预测滤波器的长度
             去混响算法中,然而,谱增强法通常会出现由相位和                           设置与 RIR 的长度呈正相关。在混响时间较长时,
             幅度估计误差所引起的语声失真。多通道线性预测                            预测滤波器的长度会非常长,导致求解滤波器系数
             (Multi-channel liner prediction, MCLP) 算法是一       的计算量很大。为了降低计算量,MCLP 算法更多
             种常用的基于语声线性预测模型的去混响方法,能                            地选择在子带或 STFT 域进行建模               [12] 。本文采用
             够在有效衰减混响的同时保证语声质量。Nakatani                        STFT 后的时 -频域来表示声信号。设 x m (n, k) 为
             等  [7−8]  在基于 MCLP 算法的基础上,结合语声信                   时 -频域中第 m 个传声器在第 n 帧第 k 个频带处的
             号的时变特性,提出了基于统计模型的语声去混响                            观测信号,可以将其分解为期望信号 d m (n, k) 和后
             方法,即加权预测误差 (Weighted prediction error,            期混响r m (n, k),
             WPE) 算法。WPE 算法可以在时域或短时傅里叶
                                                                        x m (n, k) = d m (n, k) + r m (n, k),  (1)
             变换(Short time Fourier transform, STFT)域中进
                                                               其中,d m (n, k)包含直达信号及其早期反射信号。
             行,但是WPE 算法是离线的批处理算法,不能实现
                                                                   本文的目标是消除后期混响成分 r m (n, k),从
             实时地自适应去混响          [9] 。
                                                               而达到提取期望信号d m (n, k) 的目的。根据文献[7]
                 在线的自适应去混响算法可以基于递归最小
                                                               中提出的延迟线性预测模型,后期混响 r m (n, k) 可
             二乘 (Recursive least squares, RLS) 算法  [10]  实现。
                                                               以从过去的观测信号中估计为
             自适应去混响算法在保证具有快速收敛率的同时,
                                                                           M L g −1
             还需准确地更新滤波器系数。然而,在实际的会议                                       ∑ ∑
                                                                r m (n, k)=       g m (l, k)x m (n − D − l, k), (2)
             系统中,当话者切换导致说话人位置突变时,房间冲                                      m=1 l=0
             激响应 (Room impulse response, RIR) 也会随之改            其中,g m (l, k)是第m个传声器在第k 个频带处的第
             变,如果在已收敛的滤波器系数之后继续更新滤波                            l 个预测滤波器系数,L g 为预测滤波器的长度,D 是
             器系数,算法存在发散的风险或者需要较长的收敛                            在MCLP 模型中引入的一个额外的预测延迟,以防
             时间  [11] 。本文在自适应去混响算法的基础上,集成                      止对语声信号的短时相关性造成明显的失真,达到
             了一种对说话人位置突变的检测方法,可以较为准                            只抑制晚期混响的目的,D 的取值一般对应于时域
             确地判断说话人位置是否突变,当检测到说话人位                            中的 10 ∼ 30 ms,本文中设置为 D = 3 (对应时域
   1   2   3   4   5   6   7   8   9   10   11