PANNs：大规模预训练音频神经网络用于音频模式识别

Dec, 2019

PANNs：大规模预训练音频神经网络用于音频模式识别

PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition

Qiuqiang Kong, Yin Cao, Turab Iqbal, Yuxuan Wang, Wenwu Wang...

TL;DR本论文提出了使用大型数据集 AudioSet 预训练的音频神经网络（PANNs），并将 PANNs 迁移到其他音频相关任务中，其中最好的 PANN 系统在 AudioSet 标记上实现了 0.439 的最高平均精度（mAP）。

Abstract

audio pattern recognition is an important research topic in the machine learning area, and includes several tasks such as audio tagging, acoustic scene classification, music classification, speech emotion classification and sound event detection. Recently, →

audio pattern recognition neural networks large-scale datasets audioset wavegram-logmel-cnn

发现论文，激发创造

E-PANNs: 使用高效的预训练音频神经网络进行声音识别

通过裁剪方法减少预训练音频神经网络 (PANNs) 的冗余参数，降低了计算复杂度和存储需求，提高了声音识别表现，从而可在资源受限的设备上进行部署。

May, 2023

LEAN: 轻量高效的音频分类网络

本文提出了一种轻量级的基于设备的深度学习模型 LENA，采用可训练的波形编码器、预训练的 YAMNet 和交叉注意力进行音频分类，结果表明在下游音频分类任务中，LENA 具有竞争性能，且适用于资源受限的设备。在 FSD50K 数据集上，LENA 的 mAP 为 0.445，内存占用仅为 4.5MB，比同一数据集的基准 on-device mAP 提高了 22％。

May, 2023

VI-PANN: 利用迁移学习和考虑不确定性的变分推断来提高音频模式识别的泛化能力

通过可变推理预训练音频神经网络（VI-PANNs），在将知识从上游任务转移到下游声学分类任务的同时，首次展示了将校准的不确定性信息传递和知识结合起来以提高模型性能的可能性。

Jan, 2024

大规模音频分类的 CNN 结构

本文介绍了使用几种不同的卷积神经网络对音频进行分类，发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效，使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。

Sep, 2016

文本和语音嵌入匹配：探索基于迁移学习的语音检索策略

本文研究了预训练的深度学习模型在跨模态（文字到音频）检索中的应用，使用浅层神经网络将提取的嵌入映射到公共维度，并探究优化模型的先前培训方法和损失函数选择的重要性。

Oct, 2022

使用预训练卷积神经网络进行多层级和多尺度特征聚合以达到音乐自动标记

本文提出了一种基于卷积神经网络（CNN）架构的音乐自动标记技术，该技术融合了多层级和多尺度特征，通过三个步骤的训练方式在音乐自动标记中表现出高效性并在 MagnaTagATune 数据集和 Million Song 数据集上超越了之前的 state-of-the-arts。实验证明该架构同样适用于迁移学习。

Mar, 2017

musicnn: 为音乐音频标记预训练的卷积神经网络

musicnn 库是一个预先训练的基于卷积神经网络的音乐音频标记工具，可用于音乐特征提取，以及可重复使用的预先训练模型用于迁移学习。该库代码还允许实现新型神经网络，如一种在关注度量上更加注重的卷积神经网络，其在音乐音频标记中取得了最先进的结果。

Sep, 2019

调谐：临床环境中有限数据的音频分类器性能分析

通过深度学习模型在临床环境中评估音频分类，针对反映真实世界前瞻性数据收集的小数据集，我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型，以及像 ViT、SWIN 和 AST 这样的 Transformer 模型，并将它们与预训练的音频模型（如 YAMNet 和 VGGish）进行比较。我们的方法强调了在特定临床数据上微调之前，在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术，发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明，在小数据集背景下，CNN 模型可以达到或超过 Transformer 模型的性能，其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性，为依赖音频分类的临床诊断提供了有价值的见解。

Feb, 2024

使用卷积神经网络从弱标记音频进行知识转移，用于声音事件和场景

本研究提出了一种基于卷积神经网络的弱标记音频数据分类框架，可用于转移学习，并证明了该方法对于领域和任务适应都具有有效性，此外还展示了该方法有助于捕捉语义含义和关系。

Nov, 2017

PSLA: 通过预训练、采样、标注和聚合来提高音频标记的准确性

本文研究基于 AudioSet 的音频标记技术，实现了包括 ImageNet 预训练、平衡采样、数据增强、标签增强和模型集成等训练技巧，应用在 EfficientNet 上，单个模型和集成模型在 AudioSet 上都表现出较高的平均精确度 (mAP) 得分，且还在 FSD50K 上创造了新的最高得分。

Feb, 2021