- 使用少样本推理检测合成歌词
通过对高质量合成歌词进行综合定量评估,我们基于 LIM2 模型构建的最佳 few-shot 检测器,在区分人工创作和机器生成的内容方面超越了样式和统计方法,并且对新艺术家和模型具有良好的泛化能力,同时有效地检测后期生成的改写。
- 弗拉门戈流派的计算词法分析
通过自然语言处理和机器学习,对 2000 多首弗拉门戈歌词进行计算分析。使用多项式朴素贝叶斯分类器,我们发现不同风格间的词汇变化可以准确地识别独特的弗拉门戈风格。此外,我们还通过度量风格间的距离进行网络分析,揭示了弗拉门戈风格之间的关系。我 - 编码 - 解码框架实现可控高质量韵律的交互式自由体诗生成
生成诗歌或歌词涉及到几个创作因素,而其中一个具有挑战性的方面是对较严格的韵律和押韵模式的遵循。为了解决这一挑战,之前的工作主要集中在逆向语言建模上,我们提出了一种新的微调方法,通过将押韵的词语放在每个歌词的开头,使关键的押韵决策可以在模型承 - 音乐中歌词和音频的联合情感分析
音乐中情感或心情可以在不同层面上表达自己。我们评估了基于歌词和音频的情感分析模型,并提出了结合音频和歌词结果的不同方法。我们还研究了音频和歌词情感之间的错误分类和矛盾,并确定了可能的原因。最后,我们解决了这个研究领域的一些基本问题,如主观性 - 歌词相似性感知的计算分析
比较分析了计算模型和人类感知中的歌词相似性,发现基于预训练 BERT 模型嵌入、歌曲音频和音素特征的计算模型能够准确表示感知中的歌词相似性,这一发现为相似性推荐系统的发展提供了伪标签和客观评估指标。
- LM2D: 歌词与音乐驱动的舞蹈合成
通过将音乐和歌词作为条件,在一次扩散生成步骤中创建与歌词和音乐相匹配的逼真且多样化的舞蹈,通过使用多模态扩散模型和一致性蒸馏构建了新颖的概率架构 LM2D,并引入涵盖音乐和歌词的第一个 3D 舞蹈动作数据集,该模型的结果经过客观度量和人类评 - 音乐和歌词驱动的舞蹈合成
介绍了一个新的多模态数据集 JustLMD,其中包括舞蹈动作、音乐和歌词的三元信息,并展示了一种基于跨模态扩散的网络,用于根据音乐和歌词生成 3D 舞蹈动作。
- MM基于歌词的孟加拉歌曲情绪分类
本研究使用自然语言处理和 Bert 算法对 4000 首孟加拉歌曲的歌词进行分析,将其分为快乐、悲伤、浪漫和放松四种情绪,从而实现了歌曲情绪的多类分类,使音乐与人们的情感更加契合。
- 歌词中的性别偏见和性别歧视的大规模分析
本文运用自然语言处理技术分析了 377808 首来自 “Two Million Song Database” 歌曲文本,并着重研究了性别歧视在五十年来(1960 年至 2010 年)在英语歌词中的表现和测量性别偏见。我们使用了性别歧视分类器 - 针对流派的声学模型用于多声部音乐自动歌词转录
本文提出了一种新颖的基于音乐类型的网络,仅需要轻量级的音乐类型特定参数进行训练,具有较好的歌词转录性能。
- 基于 Transformer 的歌词情感识别方法
本研究使用了基于 Transformer 的 XLNet 模型,首次探索结合歌词进行音乐情感识别。实验表明该方法的性能优于现有基于其他特征的方法。本研究为情感音乐播放列表生成和音乐推荐系统的改进等提供了重要的启示。
- ACLSongNet: 刚性格式控制文本生成
SongNet 是一个基于 Transformer 的自回归语言模型,用于生成音乐歌词、十四行诗、宋词等格式严格的文本,相比于其他模型,在格式、韵律和句子完整性等方面都有较大改进。
- 自动歌词与音频对齐的声学建模
该研究提出使用额外的语音和音乐相关特征,通过对大量独唱人声进行训练的声学模型来适应少量领域数据中的复调音乐,并利用常规声学特征一起实现鲁棒性,该策略在词汇边界对准错误的显著降低中取得了成效,特别是在具有长时间音乐插曲的复调数据上。
- KDDLYRICS: 用于集成逻辑推断和深度学习的通用界面层
LYRICS 是一个使用 First Order Logic 的输入语言,它可以与任何 TersorFlow 计算图相结合,并将公式转换成一系列实值约束条件,以满足先前确定的知识并允许学习者的权重。它在各种模型和知识方面都非常通用,其中包括 - 只是文字,我全靠它们
该论文表明了利用分布式表示范式进行音乐挖掘和自然语言处理任务时歌词的优势,并通过使用分布式表示克服了手工特征和歌词被认为是流派和流行度的弱指标两个瓶颈。
- NIPS结合学习的歌词结构和词汇以提高歌词生成
本文提出一种机制,将两个分别训练的语言模型结合起来,旨在生成符合期望歌曲结构的输出,同时提供丰富的词汇量,从而提高其创造力。
- 基于深度神经网络的音频和歌词的音乐情感检测
本研究考虑了基于音频信号和歌词的多模态音乐情绪预测任务,复现传统特征工程方法的基础上提出了一种基于深度学习的新模型,证明了新方法相较于传统模型更擅长于唤起用户的注意,而在情感预测上两种方法表现相当。此外,我们还比较了不同的融合方法,在同时优 - 音乐检索中音频和歌词的深度跨模态相关性学习
本文介绍了一种音频和歌词之间深度序列相关性的跨模态学习架构,其中涉及两个分支的深度神经网络,通过转换到相同的规范空间并利用互模态规范相关分析作为目标函数来计算时间结构的相似性。实验结果证实了所提出跨模态音乐检索的深度相关学习体系结构的有效性 - 使用分层注意力网络实现基于歌词的音乐流派分类
本文使用循环神经网络模型对大规模的歌曲歌词数据集进行音乐流派分类,并在此基础上利用分层注意力网络(HAN)实现在不同层级的特征学习以分类音乐流派,该方法不仅在准确率上超过了先前的研究成果,而且还提供了洞察在语言特征和词汇结构方面不同的音乐流