本文提出了一种基于多尺度网络和自我关注机制的方法,将吉他演奏技巧检测问题定义为基于帧的多标签分类问题,应用于吉他演奏,有效地提取不同尺度的特征,并优于现有方法。
Mar, 2023
本文利用 MusicNet 数据集,建立并评估了一个卷积神经网络,实现基于帧级别标注的乐器识别,并尝试不同方法将音高信息融入模型,实现对于多乐器帧级别噪声的校准、乐器之间谐波比较分析等,实验结果表明相对于基线方法具有显著的性能提升。
Jun, 2018
本文提出了一个多级关注模型来解决弱标签音频分类问题。 实验证明,与单级关注模型和 Google 基线相比,该模型在 Google 音频数据集上表现出更高的平均精度(mAP)。
Mar, 2018
本文介绍了利用卷积神经网络进行自动乐器识别的应用。在这个模型中,特征提取和学习算法是通过端到端方式一起训练的。通过基于原始音频训练的卷积神经网络所取得的结果表明,其性能优于那些依赖手工制作特征的传统方法。
Nov, 2015
本文提出了一种名为 MATT 的多示例注意力机制,用于解决长尾数据情况下的音乐流派分类问题,实验结果表明该方法在大规模音乐流派基准数据集上显著优于其他最先进的基线方法。
Sep, 2022
本文提出了一种神经注意力网络来直接合并多通道音频以生成语音状态,无需任何关于麦克风布置的先前知识或任何用于语音增强的显式信号预处理。
此研究提供了一种深度卷积循环模型,结合注意力机制和时间定位模块,进行弱监督的音频标记,以及在 DCASE 2016 挑战中达到了良好的性能。
Mar, 2017
本研究提出了一种使用注意力神经网络解决音频分类的方法,该方法在 AudioSet 数据集上进行实验,并发现使用 embedding feature 的音频标记性能与每个声音类别的训练样本数量和标签质量的相关性较弱。
Mar, 2019
本文提出了一种音频视觉融合模型,该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音,实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。
May, 2020
本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题,模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络,并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注,从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。
Nov, 2019