学习通用音频表示
HEAR 基准评估了多种音频嵌入模型,并提供了一个可重复评估的综合开放数据集,以求达到一个通用的音频表示模型,应用于各种语音、环境声和音乐相关的任务中。
Mar, 2022
我们提出了一个综合的基准评估系统,用于评估各种音频表示学习方法在各种不同的音频分类领域上的能力,并发布了针对非语音音频的新预训练模型,以解决目前缺乏开源非语音音频预训练模型的问题。
May, 2024
该研究提出使用对比学习方法对音频编码器进行正则化以实现模型良好的扩展性,同时使用两种数据增强策略来增加训练声音,从而获得了 13.4% 在 Replica 和 12.2% 在 MP3D 的 SPL 性能增益。
Jun, 2022
音频 - 视觉表示学习,一种开发具有类似于人类感知的系统的方法,利用声音和视觉信息之间的相关性。然而,目前的模型往往专注于有限的任务集,并且对学习表示的泛化能力尚不清楚。因此,我们提出了 AV-SUPERB 基准,它在涵盖语音和音频处理中的 5 个音频 - 视觉任务的 7 个数据集上,能够对单模音频 / 视觉和双模融合表示进行通用评估。我们评估了 5 个最近的自监督模型,并表明这些模型都不能泛化到所有任务,强调了未来需要改进通用模型性能的研究的必要性。此外,我们表明通过中间任务微调和使用 AudioSet 进行音频事件分类可以改进表示。我们发布了我们的基准测试,提供了评估代码和模型提交平台,以鼓励进一步进行音频 - 视觉学习的研究。
Sep, 2023
利用大规模、同步的数据,我们进行了深度判别式表示学习,在三个主要的自然模态中共享学习。我们的实验表明,这种表示对于跨模态检索或在模态之间转移分类器非常有用。此外,我们的网络虽然只是采用图像 + 文本和图像 + 声音对进行训练,但也可以在文本和声音之间进行转移学习,这在训练期间网络从未观察到。我们的表征的可视化揭示了许多隐藏的单元,这些单元自动出现来检测概念,独立于模态。
Jun, 2017
本文中,我们将 Holistic Evaluation of Audio Representations (HEAR) 扩展到评估在通道效应 invariant 的 embedding 性能,通过注入扰动来模拟通道效应和三种距离测量,评估两种嵌入模型 (YAMNet 和 OpenL3) 在两个城市数据集上的性能,结果表明 OpenL3 嵌入模型比 YAMNet 更稳健。
Mar, 2022
本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现,通过使用多样性和嘈杂的语音数据学习表示,并在多个语言中验证其鲁棒性和可迁移性。结果显示,该方法相比基线特征集在跨域转移和 25 种不同语言的语音识别上均有显著提升。
Jan, 2020
本文探讨通过将语音表征映射到对应的高级语言信息以学习领域不变的语音表征,结果证明,学习到的 latents 不仅捕捉到每个音素的发音特征,而且提高了适应能力,在 accened 测试基准上大幅优于基准模型。
Oct, 2022
本研究提出了一种基于超网络元学习的方法,用于生成未训练音频信号的隐式神经表示(INRs),并展示了其重建声波信号的优秀性能。
Nov, 2022