基于 SeqGAN 的旋律条件歌词生成

Oct, 2020

Melody-Conditioned Lyrics Generation with SeqGANs

Yihao Chen, Alexander Lerch

TL;DR本文提出了一种基于序列生成对抗网络（SeqGAN）的端到端旋律条件歌词生成系统，可以根据输入的旋律生成一行歌词，并对生成的主题或总体主题进行了探究，并证明输入条件不会对评估度量产生负面影响，同时可以产生更有意义的结果。

Abstract

automatic lyrics generation has received attention from both music and ai communities for years. Early rule-based approaches have~---due to increases in computational power and evolution in data-driven models---~

automatic lyrics generation ai deep learning seqgan melody-conditioned lyrics generation

发现论文，激发创造

从歌词中生成神经元旋律

本文提出了一种基于序列到序列框架，利用神经编码器和分层解码器，结合自然语言和旋律创作音乐曲调及准确标定的模型，并在 18,451 首流行歌曲中的歌词 - 旋律匹配对上进行了实验，论文通过人工评估证明了模型生成的旋律比基线模型更优秀。

Sep, 2018

无监督的旋律引导歌词生成

本文提出了一种基于分层框架和旋律 - 歌词对齐的歌词生成模型，能够在没有旋律 - 歌词对齐数据的情况下，通过对内容进行控制生成更可唱、更易懂、更连贯和有韵律的高质量歌词。

May, 2023

基于音节结构和上下文的汉语歌词条件生成

介绍了一种用于生成汉语歌词的模型，该模型基于原始旋律并考虑了汉语音节结构及语义。通过使用多通道序列到序列模型，同时考虑词组结构和语义，其中一个用于编码音节结构，另一个用于语义编码。使用大规模的汉语歌词语料库进行模型训练，并通过自动和人工评估验证了模型的有效性。是目前关于考虑音乐和语言的双重视角的汉语歌词生成较少的报告之一。

Jun, 2019

通过微调语言模型实现以旋律为条件的歌词生成，并配合 ChatGPT 进行评估

我们利用基于字符级的语言模型来从符号化旋律生成音节级歌词，通过对一个字符级预训练模型进行微调，将语言知识整合到音节级 Transformer 生成器的束搜索中。通过基于 ChatGPT 的评估，我们展示了生成歌词时的增强一致性和正确性。

Oct, 2023

无监督旋律 - 歌词生成

本研究提出一种层次化歌词生成框架，通过将已知旋律编码为解码约束并获得歌曲大纲和完整歌词的生成，实现未经过任何对齐的歌曲和歌词数据即可生成高质量歌词，并通过歌曲大纲实现内容控制。实验结果表明，本模型相对于 SongMASS 等强基线模型，基于人类评分获得了 24% 的整体质量改善。

May, 2023

可控歌词旋律生成

我们提出了一种可控的歌词到旋律生成网络，能够以用户期望的音乐风格从歌词中生成逼真的旋律，通过验证各项指标，初始控制生成的旋律的研究表明具有更好的生成质量和与用户的互动性。

Jun, 2023

基于深度关注对齐网络的从不完整歌词产生旋律

提出了一种深度注意力对齐网络，旨在以类似于人类音乐创作的方式，通过给定的不完整歌词来自动预测歌词和旋律。文章中探索了深度神经网络从歌词到旋律的编码和解码方式，并利用注意力机制在歌词到旋律生成过程中对齐预测的歌词和旋律。定量及定性评价表明，所提出的方法确实能够为给定不完整的种子歌词创作出适当的歌词和相应的旋律。

Jan, 2023

cMelGAN：基于 Mel 频谱的高效条件生成模型

研究了使用机器学习分析音乐的难点，提出了一种基于 Mel 频谱图和卷积神经网络架构的音乐创作生成模型 cMelGAN，并与基于音符的生成模型进行对比实验。

May, 2022

序列生成对抗网络生成多声部音乐

本文提出了一种基于序列生成对抗网络的应用方法 (SeqGAN)，用于创建和捕获音符和和弦的多声部音乐序列的表征，同时利用神经网络从该嵌入式音乐词空间的模拟分布中学习预测序列的分布，实验表明该方法可以稳定地训练 GAN 并创造出具有音乐连贯性且在定量和定性方面均有所提升的音乐序列。

Oct, 2017

对抗训练的端到端朝鲜语歌声合成系统

本文提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统，包括三种新颖方法：1）语音增强掩蔽，2）文本和音高的本地条件对超分辨率网络，3）条件对抗训练。该系统包括两个主要模块：从给定的输入信息生成 mel-spectrogram 的 mel-synthesis 网络和将生成的 mel-spectrogram 上采样成 linear-spectrogram 的超分辨率网络。在 mel-synthesis 网络中，应用语音增强掩蔽仅从输入文本生成隐式谐振峰掩蔽，这使得歌唱声音的语音控制更加准确。此外，本文还表明了本地文本和音高和条件对抗训练是超分辨率过程中生成真实人类歌声的关键。最后，通过定量和定性评估，证实了所有提出方法的有效性。

Aug, 2019