Page 6 - 《应用声学》2022年第6期
P. 6
852 2022 年 11 月
置发生变化时,通过初始化滤波器系数以提高算法
0 引言
的稳定性和收敛速度。
由于墙壁、地板或天花板的反射,在封闭空间
1 基于RLS的MCLP去混响方法
(如会议室) 采集的语声信号将不可避免地包含混
响 [1] 。混响会降低语声信号的清晰度和质量,影响 1.1 MCLP去混响算法模型
自动语声识别和助听器系统的性能 [2−3] 。混响语 传声器阵列模型如图 1 所示,假设房间里仅有
声信号由直达声 (Direct sound)、早期反射 (Early 一个声源,利用均匀线性传声器阵列进行语声信号
reflection) 和晚期混响 (Late reverberation) 三部分 采集,共有M 个远场传声器。
组成。直达声是不经反射,直接从声源发出被传声
器收集到的声音;紧随直达声音的,被称作早期反
射,它通常由反射次数较少的强反射构成;最后一 ܦູ
部分是由一系列难以区分的反射构成,称作晚期混 ࣱ᭧ฉҒ
响 [4] 。早期的反射分量并不会引起混响效应,反而
会增强语声的清晰度。因此,晚期反射分量是混响
效应中造成语声感知质量下降的主要原因。“去混 θ
⊲ ⊲ ⊲ d
响”(Dereverberation) 的目的就是在保留语声直达
x M ↼t↽ x ↼t↽ x ↼t↽
分量和早期反射分量的同时,减少所获取信号中的
晚期混响分量。 图 1 传声器阵列模型
Lebart 等 [5] 提出了一种基于谱增强的单通道 Fig. 1 Microphone array model
语声去混响技术,并由 Habets [6] 将其推广到多通道 MCLP 算法在时域建模时,预测滤波器的长度
去混响算法中,然而,谱增强法通常会出现由相位和 设置与 RIR 的长度呈正相关。在混响时间较长时,
幅度估计误差所引起的语声失真。多通道线性预测 预测滤波器的长度会非常长,导致求解滤波器系数
(Multi-channel liner prediction, MCLP) 算法是一 的计算量很大。为了降低计算量,MCLP 算法更多
种常用的基于语声线性预测模型的去混响方法,能 地选择在子带或 STFT 域进行建模 [12] 。本文采用
够在有效衰减混响的同时保证语声质量。Nakatani STFT 后的时 -频域来表示声信号。设 x m (n, k) 为
等 [7−8] 在基于 MCLP 算法的基础上,结合语声信 时 -频域中第 m 个传声器在第 n 帧第 k 个频带处的
号的时变特性,提出了基于统计模型的语声去混响 观测信号,可以将其分解为期望信号 d m (n, k) 和后
方法,即加权预测误差 (Weighted prediction error, 期混响r m (n, k),
WPE) 算法。WPE 算法可以在时域或短时傅里叶
x m (n, k) = d m (n, k) + r m (n, k), (1)
变换(Short time Fourier transform, STFT)域中进
其中,d m (n, k)包含直达信号及其早期反射信号。
行,但是WPE 算法是离线的批处理算法,不能实现
本文的目标是消除后期混响成分 r m (n, k),从
实时地自适应去混响 [9] 。
而达到提取期望信号d m (n, k) 的目的。根据文献[7]
在线的自适应去混响算法可以基于递归最小
中提出的延迟线性预测模型,后期混响 r m (n, k) 可
二乘 (Recursive least squares, RLS) 算法 [10] 实现。
以从过去的观测信号中估计为
自适应去混响算法在保证具有快速收敛率的同时,
M L g −1
还需准确地更新滤波器系数。然而,在实际的会议 ∑ ∑
r m (n, k)= g m (l, k)x m (n − D − l, k), (2)
系统中,当话者切换导致说话人位置突变时,房间冲 m=1 l=0
激响应 (Room impulse response, RIR) 也会随之改 其中,g m (l, k)是第m个传声器在第k 个频带处的第
变,如果在已收敛的滤波器系数之后继续更新滤波 l 个预测滤波器系数,L g 为预测滤波器的长度,D 是
器系数,算法存在发散的风险或者需要较长的收敛 在MCLP 模型中引入的一个额外的预测延迟,以防
时间 [11] 。本文在自适应去混响算法的基础上,集成 止对语声信号的短时相关性造成明显的失真,达到
了一种对说话人位置突变的检测方法,可以较为准 只抑制晚期混响的目的,D 的取值一般对应于时域
确地判断说话人位置是否突变,当检测到说话人位 中的 10 ∼ 30 ms,本文中设置为 D = 3 (对应时域