学习通用音频表示

Nov, 2021

Towards Learning Universal Audio Representations

Luyu Wang, Pauline Luc, Yan Wu, Adria Recasens, Lucas Smaira...

TL;DR提出一种基于 Slowfast 架构的正常化器自由的 NFNet 音频表示方法，并通过 HARES 跨领域 12 项测试取得优异表现，表明 SimCLR 目标能够促进更强健的音频表示学习。

Abstract

The ability to learn universal audio representations that can solve diverse speech, music, and environment tasks can spur many applications that require general sound content understanding. In this work, we introduce a holistic audio representation →

audio representation evaluation simclr objective slowfast architecture normalizer-free slowfast nfnet

发现论文，激发创造

HEAR: 面向音频表示的整体评估

HEAR 基准评估了多种音频嵌入模型，并提供了一个可重复评估的综合开放数据集，以求达到一个通用的音频表示模型，应用于各种语音、环境声和音乐相关的任务中。

Mar, 2022

评估语音、音乐和声学事件的表示方法

我们提出了一个综合的基准评估系统，用于评估各种音频表示学习方法在各种不同的音频分类领域上的能力，并发布了针对非语音音频的新预训练模型，以解决目前缺乏开源非语音音频预训练模型的问题。

May, 2024

面向音频 - 视觉导航的泛化音频表示

该研究提出使用对比学习方法对音频编码器进行正则化以实现模型良好的扩展性，同时使用两种数据增强策略来增加训练声音，从而获得了 13.4% 在 Replica 和 12.2% 在 MP3D 的 SPL 性能增益。

Jun, 2022

AV-SUPERB: 音频 - 视觉表示模型的多任务评估基准

音频 - 视觉表示学习，一种开发具有类似于人类感知的系统的方法，利用声音和视觉信息之间的相关性。然而，目前的模型往往专注于有限的任务集，并且对学习表示的泛化能力尚不清楚。因此，我们提出了 AV-SUPERB 基准，它在涵盖语音和音频处理中的 5 个音频 - 视觉任务的 7 个数据集上，能够对单模音频 / 视觉和双模融合表示进行通用评估。我们评估了 5 个最近的自监督模型，并表明这些模型都不能泛化到所有任务，强调了未来需要改进通用模型性能的研究的必要性。此外，我们表明通过中间任务微调和使用 AudioSet 进行音频事件分类可以改进表示。我们发布了我们的基准测试，提供了评估代码和模型提交平台，以鼓励进一步进行音频 - 视觉学习的研究。

Sep, 2023

见听阅：深度对齐表示

利用大规模、同步的数据，我们进行了深度判别式表示学习，在三个主要的自然模态中共享学习。我们的实验表明，这种表示对于跨模态检索或在模态之间转移分类器非常有用。此外，我们的网络虽然只是采用图像 + 文本和图像 + 声音对进行训练，但也可以在文本和声音之间进行转移学习，这在训练期间网络从未观察到。我们的表征的可视化揭示了许多隐藏的单元，这些单元自动出现来检测概念，独立于模态。

Jun, 2017

环境声音表示的扰动鲁棒性研究

本文中，我们将 Holistic Evaluation of Audio Representations (HEAR) 扩展到评估在通道效应 invariant 的 embedding 性能，通过注入扰动来模拟通道效应和三种距离测量，评估两种嵌入模型 (YAMNet 和 OpenL3) 在两个城市数据集上的性能，结果表明 OpenL3 嵌入模型比 YAMNet 更稳健。

Mar, 2022

学习稳健且多语言的语音表征

本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现，通过使用多样性和嘈杂的语音数据学习表示，并在多个语言中验证其鲁棒性和可迁移性。结果显示，该方法相比基线特征集在跨域转移和 25 种不同语言的语音识别上均有显著提升。

Jan, 2020

无监督口音领域自适应学习不变表示和风险最小化

本文探讨通过将语音表征映射到对应的高级语言信息以学习领域不变的语音表征，结果证明，学习到的 latents 不仅捕捉到每个音素的发音特征，而且提高了适应能力，在 accened 测试基准上大幅优于基准模型。

Oct, 2022

HyperSound: 使用超网络生成音频信号的隐式神经表示

本研究提出了一种基于超网络元学习的方法，用于生成未训练音频信号的隐式神经表示（INRs），并展示了其重建声波信号的优秀性能。

Nov, 2022

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021