PSLA: 通过预训练、采样、标注和聚合来提高音频标记的准确性

Feb, 2021

PSLA: 通过预训练、采样、标注和聚合来提高音频标记的准确性

PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation

Yuan Gong, Yu-An Chung, James Glass

TL;DR本文研究基于 AudioSet 的音频标记技术，实现了包括 ImageNet 预训练、平衡采样、数据增强、标签增强和模型集成等训练技巧，应用在 EfficientNet 上，单个模型和集成模型在 AudioSet 上都表现出较高的平均精确度 (mAP) 得分，且还在 FSD50K 上创造了新的最高得分。

Abstract

audio tagging is an active research area and has a wide range of applications. Since the release of AudioSet, great progress has been made in advancing model performance, which mostly comes from the development of novel

audio tagging training techniques model architectures attention modules efficientnet

发现论文，激发创造

使用注意力神经网络的弱标记 AudioSet 标记

本研究提出了一种使用注意力神经网络解决音频分类的方法，该方法在 AudioSet 数据集上进行实验，并发现使用 embedding feature 的音频标记性能与每个声音类别的训练样本数量和标签质量的相关性较弱。

Mar, 2019

PANNs：大规模预训练音频神经网络用于音频模式识别

本论文提出了使用大型数据集 AudioSet 预训练的音频神经网络（PANNs），并将 PANNs 迁移到其他音频相关任务中，其中最好的 PANN 系统在 AudioSet 标记上实现了 0.439 的最高平均精度（mAP）。

Dec, 2019

多任务学习和自监督实现高效的音频分类

本研究旨在通过使用多任务学习和自监督学习提高基于 WaveNet 的大型神经网络在音频数据上的标签效率，并证明在有限的标记训练数据场景下，同时训练其他自监督任务可以显著提高分类性能。

Oct, 2019

EAT：高效音频 Transformer 的自监督预训练

提出了高效音频 Transformer（EAT）模型，通过自监督训练范式和新颖的话语 - 帧目标（UFO）增强声音事件建模能力，探究了掩模策略在音频自监督学习中的关键性作用，并在多种音频相关任务中实现了最先进的性能，并且相比现有的音频自监督学习模型，预训练速度提升了约 15 倍。

Jan, 2024

CLAP：从自然语言监督中学习音频概念

提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Jun, 2022

E-PANNs: 使用高效的预训练音频神经网络进行声音识别

通过裁剪方法减少预训练音频神经网络 (PANNs) 的冗余参数，降低了计算复杂度和存储需求，提高了声音识别表现，从而可在资源受限的设备上进行部署。

May, 2023

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

May, 2024

基于注意力模型的音频数据集分类：一个概率视角

本文研究 Audio Set 数据集的分类问题，提出了一种基于注意力模型的方法，用于解决多实例学习问题，并且在该数据集上获得了 0.327 的平均精度 (mAP)，优于谷歌基线 (0.314) 和循环神经网络模型 (0.325)。

Nov, 2017

利用人工智能辅助策略优化标注预算的野外录音数据集创建实务方面的问题

机器听觉的研究聚焦于开发从音频信号中提取相关信息的技术，本文强调了在获取和标注具有上下文的数据方面的重要性，提出了一种综合的数据中心框架用于机器听觉项目，在资源受限的情况下实现配置录音节点、数据库结构和标注预算优化，通过使用专家标注员而非众包实现主动学习，以解决处理大规模、不断增长的数据集带来的计算资源和内存限制等问题。

May, 2024

弱监督音频分类的多层注意力模型

本文提出了一个多级关注模型来解决弱标签音频分类问题。实验证明，与单级关注模型和 Google 基线相比，该模型在 Google 音频数据集上表现出更高的平均精度（mAP）。

Mar, 2018