MusiCoder: 基于 Transformers 的通用音乐 - 声学编码器
该论文提出了一种基于 Transformer 编码器的音频分类模型,使用 MFCCs 作为输入特征,经过 ESC-50, Speech Commands v0.02, 和 UrbanSound8k 数据集的测试,获得了最高达 95.2% 的精度和轻量级的模型参数,是一种高效的音频分类方法。
Apr, 2023
本文提出了一种新的文本监督预训练方法 MUSER,采用音频 - 频谱 - 文本三模态对比学习框架,通过任何形式的元数据模板来帮助文本输入,从标记音频中挖掘更好的音乐序列表示,具有比当前数据密集型预训练方法更灵活地适应下游任务以及只需要 0.056%的预训练数据就能达到最先进性能的优势。
May, 2023
提出一种称为 Masked Predictive Coding 的无监督预训练方法,可用于 Transformer-based 模型的无监督预训练,其应用于 HKUST 的实验表明,使用相同的训练数据,我们可以实现 CER 为 23.3%,超过最佳的端到端模型 0.2% 的绝对 CER。使用更多的预训练数据,我们可以进一步将 CER 降至 21.0%,相对 CER 基线降低 11.8%。
Oct, 2019
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021
通过收集离散声学代码并进行微调,AudioFormer 对音频分类任务提出了一种学习音频特征表示的方法。采用已有的神经音频编解码模型,生成离散声学代码并利用它们来训练掩码语言模型,从而获取音频特征表示。此外,通过采用多正样本对比学习方法,实现了多个离散声学代码在同一音频输入中的联合表示学习。实验结果表明,与传统单模音频分类模型相比,AudioFormer 在多个数据集上取得了显著提升,在某些数据集上甚至超越了音频 - 视觉多模分类模型的性能。
Aug, 2023
本研究探讨了使用神经音频编解码器 EnCodec 生成发音、音乐和环境声音的离散目标,以学习基于遮蔽自动编码器的通用音频模型 EncodecMAE,并在广泛的音频任务中取得了与领先的音频表示模型相媲美或更好的性能。
Sep, 2023
通过对多模态数据的构建和深度学习模型的训练,本文提出了一种在音频和歌词之间学习对准关系的方法,并通过此方法优化跨模态对齐,并为音乐搜索和推荐提供了理论和实证结果。
Dec, 2022
利用自监督学习方法,结合教师模型的音乐理解模型能够在大规模数据上,通过留声机和 Constant-Q Transform 等多种教师模型的指导,将 BERT-style transformer encoder 更好地应用于音乐领域,提升了音乐检索等 14 项任务的表现。
May, 2023
本文提出了一种统一的跨模态预训练模型 UniXcoder,使用前缀适配器控制模型行为并使用语法树和代码注释等交叉模态内容来增强代码表示。同时,利用多模态内容进行对比学习以学习代码片段代表,并使用跨模态生成任务在编程语言之间进行表示的对齐。该模型在五个代码相关任务上取得了最先进的结果,而注释和 AST 可以增强该模型。
Mar, 2022