- 婴儿中心家庭声音环境中的声音标记
通过于婴儿身上佩戴的记录设备,我们收集并标记了 22 个家庭中家庭声音环境中的噪音,并探讨了一个大型预训练模型(Audio Spectrogram Transformer [AST])在这些婴儿中心化的环境数据以及公开可用的家庭环境数据集上 - 南非鸟类物种的自动生物声学监测在未标记数据上
基于被动声学监测(PAM)录音进行生物多样性监测的分析既耗时又受到录音中背景噪声的挑战,现有的声音事件检测(SED)模型仅适用于特定的鸟类物种,进一步模型的发展需要标记数据。本研究开发的框架从可用平台自动提取选定鸟类物种的标记数据,将标记数 - UniAV:统一的音频视觉感知支持多任务视频定位
UniAV 是一种统一的视听感知网络,可以联合学习时间动作定位(TAL)、声音事件检测(SED)和视听事件定位(AVEL)任务,并通过使用预训练的文本编码器设计统一的语言感知分类器,实现对各种类型实例的灵活检测。UniAV 通过更少的参数比 - 声音事件检测和定位与距离估计
本文提出了一种新方法,即将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位,并通过多任务和单任务两种方法研究了在 AM 型和双耳型 STARSS23 背景下的实现方案,并探究了与距离估计相关的损失函数,实验结果表明,在不降低声音 - tinyCLAP:压缩对比式语音 - 文本预训练模型
研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性,得到一个高效模型 ——tinyCLAP,该模型仅使用原 Microsoft CLAP 参数的 6%,在测试的三个声音事件检测数据集上,零样本分类性能仅降低不到 5%。
- 在线声音事件检测的主动学习
在线主动学习(OAL)应用于声音事件检测(SED)时,本研究提出了能够解决 OAL 中存在的挑战的新型损失函数,实验结果表明 OAL 可将训练 SED 分类器所需的时间和精力减少 5 倍,并成功解决现有 OAL 方法存在的问题。
- 利用受监督对比学习进行生物声学少样本检测的预训练表示
通过数据增强和监督对比学习框架,利用少量标注样本实现了对生物声学应用中的声音事件进行检测和分类的深度学习方法,并在 DCASE 挑战中获得了较好的性能。
- AAAI装备声音事件检测与语言模型能力
通过语言模型结合音频特征和文本特征,本研究提出了一种高效的声音事件检测方法,实现了精准的声音事件分类和时序定位。与传统方法相比,该模型更简洁全面,直接利用语言模型的语义能力生成时序和事件序列,获得了准确的声音事件检测结果。
- DiffSED:使用降噪扩散的声音事件检测
通过采用生成学习的角度来重新构建声音事件检测问题,我们的模型在训练中学习逆转噪声处理,从而能够从噪声查询中生成准确的事件边界,实验证明在 Urban-SED 和 EPIC-Sounds 数据集上,我们的模型在训练中具有 40% 以上的更快收 - 使用预训练音频表征学习检测新颖和细粒度声学序列
该论文调查了用于少样本声音事件检测的预训练音频表示。他们开发了适合此任务的预训练嵌入并评估其在 AudioSet 上的通用性和在现实世界声学序列构造的任务上的效用。
- 音频鲁棒隐私保护的对抗表示学习
本研究提出了一种新的对抗性训练方法,用于生成语音含量音频的不变潜在表示,以有效防止从录音的潜在特征检测语音活动,缓解了隐私泄露的问题。
- ICML使用 ResNets 和预训练语用学习模型的多任务声音爆发建模
本文介绍了我们在 ICML 表达性声学竞赛中使用的建模方法,其中采用了多种卷积神经网络模型,并且发现 Conformer 模型在该任务中存在潜力,并提出在情感表达、年龄预测和来源国家等子任务方面,使用单任务模型效果更好,质疑了该问题是否真正 - 适应性少样本学习算法在稀有声音事件检测中的应用
本研究提出了一种新颖的任务自适应模块,用于度量学习框架的少样本学习中,并在两个数据集上实现了比基线方法取得了更好的性能,特别是在转导传播网络上,例如在 ESC-50 的 5 路 1-shot 准确性上提高了 6.8%,在 noiseESC- - FilterAugment: 一种声学环境数据增强方法
提出了一种名为 FilterAugment 的数据增强方法,用于在不同声学环境下正则化音频模型。通过在频率带上应用不同的权重,这种方法可以模拟声学滤波器,从而使模型能够从更广泛的频率区域提取相关信息。实验证明,与频率屏蔽相比,FilterA - 具动态混响声场和方向干扰源的声音事件定位和检测数据集
本文介绍了 DCASE2021 Sound Event Localization and Detection (SELD) 挑战任务的数据集和基线。新的数据集增加了定向干扰者,使得该数据集更具挑战性。实验结果表明,定向干扰者对数据集有很大的 - ACCDOA:面向声音事件定位和检测的活动相连的笛卡尔方位角表示法
本文提出了一种基于活动耦合笛卡尔方向角 (ACCDOA) 表示法,将声学事件的活动分配到相应的笛卡尔方向角矢量的长度中,以解决单目标 SELD 任务的平衡问题以及模型大小增加的问题,并使用 DCASE2020 Task 3 数据集进行实 - DCASE 2019 中声音事件定位和检测的概述和评估
介绍了在 DCASE 2019 Challenge 中首次国际评估声音事件定位和检测的概述,通过大规模实际场景的数据集进行训练,评估发现,基于联合计算的共同测量参数对于比较检测和定位的系统排名更为准确。
- 使用软场景标签进行声音事件和场景的多任务学习声音事件检测
本文提出了一种新的使用环境声音软标签来基于多任务学习(MTL)的声音事件检测(SED)方法用于与声学场景分类(ASC)同时进行分析的方法, 该方法相比传统的基于 MTL 的 SED 方法在 F 分数上提高了 3.80%。
- 多声部声音事件定位和检测的序列匹配网络
提出一种模块化和分层的方法,将声音事件检测和到达方向估计的学习分离开来,在利用神经网络匹配这两个输出序列的基础上,实现了对整个声事件定位和检测系统性能的提升。
- 弱标注数据源分离:一种计算听觉场景分析方法
本研究提出一种基于弱标注数据训练的源分离框架,利用 AudioSet 训练的音频事件检测系统,实现了对 527 种声音类别的分离,采用了 U-Net 结构,平均信噪比为 5.67dB。