使用音频指导的预训练语言模型解释歌曲歌词

Aug, 2022

使用音频指导的预训练语言模型解释歌曲歌词

Interpreting Song Lyrics with an Audio-Informed Pre-trained Language Model

Yixiao Zhang, Junyan Jiang, Gus Xia, Simon Dixon

TL;DR本文提出了 BART-fusion 模型，用于从音乐音频和歌词中生成歌词解释，该模型结合了一个大规模预训练语言模型和一个音频编码器。实验结果显示，该模型能够更好地理解歌词和音乐，生成精确流畅的解释，并且可以帮助人们更准确地检索音乐。

Abstract

Lyric interpretations can help people understand songs and their lyrics quickly, and can also make it easier to manage, retrieve and discover songs efficiently from the growing mass of music archives. In this paper we propose bart-fusion, a novel model for generating lyric interpretati

lyric interpretation bart-fusion audio encoder cross-modal attention music retrieval

发现论文，激发创造

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

TRBLLmaker -- 基于 Transformer 的歌词内部关系识别器

本文主要介绍了使用 Transformer 架构的 GPT-2 模型实现歌曲歌词含义的生成方法，并且使用了 Genious API 获取了一些包含元数据及解释说明的歌曲数据集。

Dec, 2022

MeLFusion: 使用扩散模型合成基于图像和语言线索的音乐

音乐综合，机器学习模型，MeLFusion，视觉信息，和 IMSM 对生成的音乐质量产生显著的影响。

Jun, 2024

通过微调语言模型实现以旋律为条件的歌词生成，并配合 ChatGPT 进行评估

我们利用基于字符级的语言模型来从符号化旋律生成音节级歌词，通过对一个字符级预训练模型进行微调，将语言知识整合到音节级 Transformer 生成器的束搜索中。通过基于 ChatGPT 的评估，我们展示了生成歌词时的增强一致性和正确性。

Oct, 2023

MusiLingo：使用预训练语言模型在音乐字幕和查询响应中连接音乐和文本

MusiLingo 是一个创新系统，通过使用单个投射层将来自预训练的冻结音乐音频模型 MERT 和冻结的 LLaMA 语言模型中的音乐表示对齐，弥合了音乐音频和文本环境之间的差距，从而在音乐字幕生成和音乐相关的查询响应中展现了竞争性能。

Sep, 2023

探索预训练检查点在文本生成音乐任务中的功效

本研究首次尝试使用 BERT、GPT-2 和 BART 等公开可用的预训练模型生成完整且语义连贯的音乐曲谱，实验结果表明使用预训练检查点在文本到音乐生成任务中具有显著改进。

Nov, 2022

基于深度神经网络的音频和歌词的音乐情感检测

本研究考虑了基于音频信号和歌词的多模态音乐情绪预测任务，复现传统特征工程方法的基础上提出了一种基于深度学习的新模型，证明了新方法相较于传统模型更擅长于唤起用户的注意，而在情感预测上两种方法表现相当。此外，我们还比较了不同的融合方法，在同时优化各单模态模型时取得了较大的提升，并向公众发布部分数据以供参考。

Sep, 2018

使用 BART 进行词汇约束文本生成的并行微调

本文介绍了一种利用 Constrained BART 的方式进行词汇约束文本生成，并通过将任务分为两个子任务，将生成的负担从解码器转移到编码器，从而提高了句子质量和生成效率。实验结果表明，CBART 能够生成高质量和多样性的文本，同时显著加速推断。

Sep, 2021

结合学习的歌词结构和词汇以提高歌词生成

本文提出一种机制，将两个分别训练的语言模型结合起来，旨在生成符合期望歌曲结构的输出，同时提供丰富的词汇量，从而提高其创造力。

Nov, 2018

音乐检索中音频和歌词的深度跨模态相关性学习

本文介绍了一种音频和歌词之间深度序列相关性的跨模态学习架构，其中涉及两个分支的深度神经网络，通过转换到相同的规范空间并利用互模态规范相关分析作为目标函数来计算时间结构的相似性。实验结果证实了所提出跨模态音乐检索的深度相关学习体系结构的有效性。

Nov, 2017