零样本音乐标签的联合音乐和语言注意力模型

Oct, 2023

零样本音乐标签的联合音乐和语言注意力模型

Joint Music and Language Attention Models for Zero-shot Music Tagging

Xingjian Du, Zhesong Yu, Jiaju Lin, Bilei Zhu, Qiuqiang Kong

TL;DR我们提出了一个零样本音频标记系统，使用 JMLA 模型来解决开放式音乐标记问题，并通过引入稠密注意连接来提高编码器和解码器之间的信息流动。我们收集了一个大规模的音乐和描述数据集，并使用 ChatGPT 将原始描述转化为形式化和多样化的描述以训练 JMLA 模型。我们的提出的 JMLA 系统在 GTZAN 数据集上实现了 64.82% 的零样本音频标记准确率，优于以前的零样本系统，并在 FMA 和 MagnaTagATune 数据集上实现了与以前系统相当的结果。

Abstract

music tagging is a task to predict the tags of music recordings. However, previous music tagging research primarily focuses on close-set music ta

music tagging zero-shot music tagging jmla model audio encoder dense attention connections

发现论文，激发创造

MuLan: 音乐音频与自然语言的联合嵌入

MuLan 是一种新型的声学模型，通过将音乐音频直接链接到自由形式的文字注释，构建与各种音乐流派和文本样式兼容的音频 - 文本表示，具有真正的零样本功能，可用于传输学习、零样本音乐标记、音乐领域语言理解和跨模态检索应用等。

Aug, 2022

面向零 - shot 跨语言任务驱动对话系统的注意力导向混合语言训练

该研究提出了 Attention-Informed Mixed-Language Training (MLT) 方法，用于跨语种任务定向对话系统的零样本适应。该方法通过利用极少的任务相关平行词对来生成代码交换句子，并利用注意层给出的分数提取源单词，最终实现了显著的零 - shot 适应性能提升。

Nov, 2019

基于音频的零样本学习音乐分类和标记

本文研究了音乐领域中的零样本学习，并组织了两个不同的副信息设置，探讨人类标记的属性信息和一般词语语义信息的适用性，在音乐分类和多标签零样本学习方面提出了数据分割方案和评估设置，并报告了实验结果。

Jul, 2019

使用自我关注实现可解释的音乐标记

提出了一种基于自注意力机制的深度序列模型，用于解决音乐信息检索问题，并且相比于传统的卷积和递归神经网络方法，该模型更具可解释性且具有竞争力的结果。

Jun, 2019

一种简单的元学习范式，用混合注意机制进行零样本意图分类

本文提出了一种简单而有效的元学习范式，采用多种混合注意力机制来提取更好的话语特征，采用元学习策略来提高模型的泛化能力，从而在标准和广义零 - shot 意向分类任务上优于其他强基线

Jun, 2022

音乐对比语音学习

本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法，提出了一种名为 MusCALL 的框架，采用双重编码器架构进行跨模态学习，实现音频和描述语句的对齐，生成用于文本到音频和音频到文本检索的多模式嵌入，实验表明我们的方法在音频与文本检索任务中比基线方法表现更好，并且可成功扩展应用于流派分类和自动标签的零样本转移场景。

Aug, 2022

通过集合元调整数据集和提示，为零样本学习调整语言模型

该论文提出了元调谐（meta-tuning）方法，旨在直接针对零样本学习目标对预训练语言模型进行微调，应用于分类任务，并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明，相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型，元调整模型在新的任务上表现更好，同时我们认为，增加参数数量会进一步提升 AUC-ROC 分数。

Apr, 2021

音乐理解 LLaMA：通过问题回答和字幕提升文本至音乐生成

文中提出的 MU-LLaMA 模型通过 MusicQA 数据集的训练，在音乐问答和音乐配音生成方面取得了出色的表现，超越了当前领先的模型，并为 T2M-Gen 研究领域带来了有希望的进展。

Aug, 2023

CLAP：从自然语言监督中学习音频概念

提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Jun, 2022

VQA 模型中的注意力模式零 - shot 翻译为自然语言

ZS-A2T 是一个零射击框架，将给定模型的转换器注意力转换为自然语言而无需任何训练，以可理解形式提供关于该模型的见解。它在视觉问答（VQA）的上下文中构建在预训练的大型语言模型上，并通过利用 VQA 模型的文本 - 图像匹配能力来确定其相似性，从而实现了无需训练并能够替换不同引导来源（例如属性而非注意力矩阵）或语言模型的框架。在 VQA 的文本解释数据集上进行了评估，并在 GQA-REX 和 VQA-X 的零射击设置中达到了最先进的性能。

Nov, 2023