用于音乐乐器识别的注意力机制

Jul, 2019

An Attention Mechanism for Musical Instrument Recognition

Siddharth Gururani, Mohit Sharma, Alexander Lerch

TL;DR本篇论文讨论了针对乐器识别难题的注意力机制，并针对数据弱标签的问题，使得在 OpenMIC 数据集上的多标签乐器识别精度得到提升。

Abstract

While the automatic recognition of musical instruments has seen significant progress, the task is still considered hard for music featuring multiple instruments as opposed to single instrument recordings. Dataset

automatic recognition musical instruments polyphonic instrument recognition attention mechanism classification accuracy

发现论文，激发创造

使用多尺度网络和自注意机制的帧级多标签演奏技巧检测

本文提出了一种基于多尺度网络和自我关注机制的方法，将吉他演奏技巧检测问题定义为基于帧的多标签分类问题，应用于吉他演奏，有效地提取不同尺度的特征，并优于现有方法。

Mar, 2023

基于音色和音高的帧级乐器识别

本文利用 MusicNet 数据集，建立并评估了一个卷积神经网络，实现基于帧级别标注的乐器识别，并尝试不同方法将音高信息融入模型，实现对于多乐器帧级别噪声的校准、乐器之间谐波比较分析等，实验结果表明相对于基线方法具有显著的性能提升。

Jun, 2018

弱监督音频分类的多层注意力模型

本文提出了一个多级关注模型来解决弱标签音频分类问题。实验证明，与单级关注模型和 Google 基线相比，该模型在 Google 音频数据集上表现出更高的平均精度（mAP）。

Mar, 2018

使用卷积神经网络自动识别多音乐器中的乐器

本文介绍了利用卷积神经网络进行自动乐器识别的应用。在这个模型中，特征提取和学习算法是通过端到端方式一起训练的。通过基于原始音频训练的卷积神经网络所取得的结果表明，其性能优于那些依赖手工制作特征的传统方法。

Nov, 2015

MATT：一种多示例注意机制用于长尾音乐种类分类

本文提出了一种名为 MATT 的多示例注意力机制，用于解决长尾数据情况下的音乐流派分类问题，实验结果表明该方法在大规模音乐流派基准数据集上显著优于其他最先进的基线方法。

Sep, 2022

多麦克风距离语音识别中的听觉关注循环模型

本文提出了一种神经注意力网络来直接合并多通道音频以生成语音状态，无需任何关于麦克风布置的先前知识或任何用于语音增强的显式信号预处理。

Nov, 2015

基于深度卷积循环模型的注意力和定位方法，用于弱监督音频标记

此研究提供了一种深度卷积循环模型，结合注意力机制和时间定位模块，进行弱监督的音频标记，以及在 DCASE 2016 挑战中达到了良好的性能。

Mar, 2017

使用注意力神经网络的弱标记 AudioSet 标记

本研究提出了一种使用注意力神经网络解决音频分类的方法，该方法在 AudioSet 数据集上进行实验，并发现使用 embedding feature 的音频标记性能与每个声音类别的训练样本数量和标签质量的相关性较弱。

Mar, 2019

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020

视频级标签时间定位的多注意力网络

本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题，模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络，并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注，从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。

Nov, 2019