Page 73 - 《应用声学》2023年第1期
P. 73
第 42 卷 第 1 期 李光炬等: Mel 频率倒谱系数平滑的耳机均衡 69
( )
频带(f u > f l ),中心频率为f c ,满足以下关系式: 4f c |f i − f c |
× exp − . (9)
24.7(0.00437f c + 1)f c
n
f u = 2 · f l ,
(5) 对W(f i )进行能量归一化处理为
√
f c = f u f l , / N
∑
W n (f i ) = W(f i ) W(f i ), (10)
其中,n 表示倍频程,当 n = 1/3 时,上下截止频率
i=1
的关系为 1/3 倍频程,f c 为上下截止频率的几何平
其中,N 表示采样频率的一半对应的离散频率序列。
均值。采用1/3 Octave平滑方法对HETF做平滑处
设平滑前的频域幅度为 H(f i ),则平滑后的频域幅
理:首先对耳机的瞬态响应进行傅里叶变换并求出
度H s (f i )表示为
幅度谱,然后根据式 (5) 计算每个中心频率 f c 的带 v
u N
宽内幅度谱的平均值,最后合成 1/3 倍频程幅度谱 u∑ 2
H s (f i ) = t H(f i ) · W n (f i ). (11)
为平滑后的HETF。 i=1
2.2 基于roex滤波器平滑 2.3 基于MFCC平滑
耳机听觉感知效果与人耳听觉生理有关。因 人耳对频率的分辨率不是线性的,对低频的分
人耳基底膜的频率选择特性,人耳的频率分辨率随 辨率高于高频的分辨率,线性刻度下的 HETF 平滑
频率增大而递减,而听觉滤波器可仿真人耳基底膜 不符合人耳听觉特性。MFCC [19] 将频率转换为Mel
的频率选择特性和分辨率。由于 roex 滤波器符合 频率,在 1000 Hz 以下人耳对声信号的感知能力与
耳蜗非对称与强度依赖的听觉滤波特性 [17] ,采用 频率呈近似线性关系,在 1000 Hz 以上则与频率呈
roex 滤波器平滑 HETF 可以很好地仿真人耳基底 对数关系,能够充分模拟人耳听觉感知特性。Mel频
膜对频率的选择特性和分辨率,达到减小 HETF 的 率f Mel 与频率之间的转换关系表示如下 [20] :
尖锐峰谷被过度均衡的目的。Roex 滤波器 [18] 的表 f Mel = 2595 × lg(1 + f Hz /700), (12)
达式为
其中,f Hz 表示线性频率, 单位为 Hz。 采用基
W(g) = (1 + r)(1 + pg) · e −pg + r, (6) 于 MFCC 平滑方法对 HETF 做平滑处理:首先将
其中,W(g) 为听觉滤波器的形状,g 表示与听觉滤 HETF 的频谱转化为 Mel 频率域上的非线性频谱,
波器的频率 f i 相对于中心频率 f c 的偏差,p 和 r 是 其次将非线性频谱转化到倒谱域上得到Mel频率倒
与滤波器形状有关的参数,p 决定滤波器的尖锐程 谱系数,最终使 HETF 的频谱转换到可以被人耳感
度,r 用于限制滤波器的动态响应范围。对正常听 知的频域中,实现更好的耳机听觉感知效果。平滑
力人群,听觉滤波器的等效矩形带宽 (Equivalent HETF流程如图1所示,平滑过程如下所述3步骤:
rectangular bandwidth, ERB)与p的关系为 步骤1:由x(n)表示HETF,为了减小频谱泄漏,
采用 hamming 窗对 x(n) 进行加窗处理得到 x w (n),
ERB = 4f c /p. (7)
然后对 x w (n) 进行快速傅里叶变换 (Fast Fourier
ERB与中心频率f c 之间的关系为
transform, FFT)得到的线性频谱为
ERB = 24.7 × (0.00437f c + 1). (8) N−1
∑
X w (k) = x w (n)e −j2πnk/N ,
根据式 (6)、式 (7) 与式 (8) 得到 roex 滤波器的形状
n=0
与中心频率的关系为
( ) 0 6 n, k 6 N − 1, (13)
4f c |f i − f c |
W(f i ) = 1 + 其中,N 与x(n)长度相等为N = 2048。
24.7(0.00437f c + 1)f c
x↼n↽ x w↼n↽ X w↼n↽ E↼k↽
ҫቔܫေ FFT රᑟ᧚៨ Melᮠဋฉ٨ጸ
S↼k↽
S↼m↽
mfcc M
᧘ x↼n↽ DCT ࠫᑟ᧚ܫေ
HETF mfcc
图 1 基于 MFCC 平滑方法平滑 HETF 流程图
Fig. 1 Block diagram of MFCC smoothing HETF process