Page 118 - 201805
P. 118
700 2018 年 9 月
Rev. Lett., 2011, 106(21): 213902. that reduces image reconstruction error[J]. Appl. Opt.,
[22] Mellin S D, Nordin G P. Limits of scalar diffraction the- 1973, 12(10): 2328–2335.
ory and an iterative angular spectrum algorithm for finite [26] Fienup J R. Iterative method applied to image reconstruc-
aperture diffractive optical element design[J]. Opt. Ex- tion and to computer-generated holograms[J]. Opt. Eng.,
press, 2001, 8(13): 705–722. 1980, 19(3): 297–305.
[23] Gerchberg R W, Saxton W O. A practical algorithm for [27] Wyrowski F, Bryngdahl O. Iterative fourier-transform al-
the determination of phase from image and diffraction gorithm applied to computer holography[J]. J. Opt. Soc.
plane pictures[J]. Optik, 1972, 35(2): 237–250. Am. A., 1988, 5(7): 1058–1065.
[24] St-Hilaire P. Phase profiles for holographic stereograms[J]. [28] Wyrowski F, Bryngdahl O. Digital holography as part
Opt. Eng., 1995, 34(1): 83–90. of diffractive optics[J]. Rep. Prog. Phys., 1991, 54(12):
[25] Gallagher N C, Liu B. Method for computing kinoforms 1481–1571.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
⋄ 声学新闻和动态 ⋄
声学场景和事件的检测及分类
随着计算机听觉场景分析领域的发展,声学场景和 采用经典的 HMM、非负矩阵分解 NMF,或基于深度学习的
事件的检测、分类得到了越来越多的关注。DCASE 大赛 方法如卷积神经网络 CNN 以及长短期记忆 LSTM 等方法
(The Challenge on Detection and Classification of Acous- 进行研究。
tic Scenes and Events) 自 2013 年起举办,每届都会设置若 声学场景分类和事件检测的另一大研究热点是室内声
干个专门针对声学场景和事件的检测、分类的任务,并发布 学事件的标注。我们可以给一个声音片段标注上一个或者
了相关的音频文件库和基线系统,以期促进该领域的发展。 多个标签,而不需要去详细定位事件的具体分类。这种标记
最近,来自芬兰坦佩雷理工大学、伦敦玛丽王后大 方式不涉及声学事件的开始和持续时间,因此也被称为弱标
学、法国南特中央理工大学以及英国萨里大学的研究学 记。该手段被广泛应用于音乐信号的分析处理中,但是在环
者们在 IEEE/ACM Transactions on Audio, Speech and 境音频的标注方面尚未得到深入的研究。目前的研究方法
Language Processing 杂志上发表的 Detection and classi- 主要有 GMM,结合多示例学习的 SVM,无监督特征学习以
fication of acoustic scenes and events: outcome of the 及 CNN。相比于环境声信号、语音和音乐信号,室内音频信
DCASE 2016 challenge 一文,针对 2016 年 DCASE 大赛的 号的获取更为困难。针对这个问题,DCASE 大赛专门录制
各项参赛作品的设计和性能进行了详细分析,研究发现深度 了特定场景的音频数据库,虽然数据量还不是特别大,但涵
学习方法已经逐渐取代基于高斯混合模型和支持向量机的 盖了日常生活的大部分方面,可用于作为交叉训练和验证模
传统分类方法,成为了最热门的分类方法。而特征表示方法 型的样本。通过公开数据库,确定普适性的评价标准和过程,
这些年来并没有很大的变化,主流做法仍然基于梅尔频率。 并设定基线工具,有利于实现不同算法的独立评估。
本赛事的部分资料是公开的,因此对于后续的相关研究很有 2013 年,DCASE 首届大赛只设置了声学场景分类和
价值。 声学时间检测两大方向,2016 年扩展为四个方向,加入更为
DCASE 2016 大赛包括声学场景分类,合成音频、现实 细致的声学事件分类与检测,提出的任务更加贴近日常生
场景中的声学事件检测,以及音频标注四大项目。其中声学 活,引起更多的关注和参与度。2017 年,大赛又根据该领域
场景分类是一种宽泛的分类方式,目的是把来自不同声源或 的最新发展及关注热点,增加了稀有事件检测和无人驾驶中
者位置的声音进行区分。目前广泛使用的特征有梅尔频率 的大规模弱监督声学事件检测。通过比赛任务的设置、样本
倒谱系数 MFCC、声学事件直方图或基于时频学习的梯度 库的录制以及对参赛作品的评测,可以更好地把握该方向
直方图等。而在建模方面,除了经典的统计学模型如隐马尔 的发展。DCASE 大赛也促进了相关领域的会议增加声音分
科夫模型 HMM、高斯混合模型 GMM、支持向量机 SVM 以 类的相关主题并提供更多的样本库,极大地推进了该方向
外,深度学习方法得到越来越广泛的关注。 的进步。
声学事件分类与检测则更为细致,目的是把来自相同
声源的声音或者是经过相同物理过程产生的声音划为一类 (余紫莹 编译自: Mesaros A, Heittola T, Benetos
进行区分。在早期的研究中,人们把分类和检测混为一谈,关 E, et al. Detection and classification of acoustic scenes
注点一般集中在单个孤立声音上。简单的声学场景中每个 and events: outcome of the DCASE 2016 challenge[J].
音频段只包含一个声学事件,且其中的各类声音没有混叠。 IEEE/ACM Transactions on Audio, Speech and Language
目前声学事件分类检测一般是以梅尔刻度的谱特征为基础, Processing, 2018, 26(2): 379–393.)