探索预训练检查点在文本生成音乐任务中的功效
本篇论文展示了预训练模型的高效性,使用 Transformer-based 序列到序列模型,并将其与公开的预训练检查点匹配,取得了机器翻译、文本摘要、句子拆分和句子融合等方面的最新的最新成果。
Jul, 2019
该研究使用 BERT 的掩蔽语言建模方法尝试预训练一个 12 层 Transformer 模型,用于处理 4166 个多音乐器 MIDI 文件,以解决一些基于符号领域的音乐理解任务,并发现预训练仍然有效。
Jul, 2021
本文介绍了如何用预训练模型 MusicBERT 进行符号音乐理解,并讨论了其中涉及的关键技术,包括 OctupleMIDI 编码和小节层面的掩蔽策略。实验证明,MusicBERT 在旋律完成、伴奏建议、流派、和风格分类等四项任务中具有优越性。
Jun, 2021
本研究提出使用深度模型进行跨领域的知识迁移,将大规模预训练的语言模型应用于鼓演奏的 MIDI 文件生成。研究表明,GPT3 模型能够生成相对合理的鼓声,但使用其他没有预训练的模型却无法实现。同时,作者还提出了定制结构评估方法,以比较生成的音乐与专业音乐家演奏的音乐,并揭示了此种方法的优缺点。该研究表明,使用大型语言模型进行跨领域迁移学习具有应用前景。
Jan, 2023
调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响,并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估,使用基于嵌入和基于音乐的量化评估指标,以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致,并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。
Sep, 2023
本文研究了 GPT-3 在通过文本解释来表达音乐决策方面的能力,结果表明 GPT-3 缺乏理解音乐决策的必要智能,解决该问题的主要障碍是缺乏艺术家创作音乐时解释过程的数据资源。
May, 2022
本文研究了两种先前提出的预训练语言模型(PLMs),分析了不同任务自适应预训练策略对图转文本生成中 PLMs 的影响,发现 PLMs BART 和 T5 实现了新的最先进结果,并且任务适应性预训练策略进一步提高了它们的性能。
Jul, 2020
本文探讨了生成模型在零样本情况下从图数据生成描述性文本的能力,并与微调后的语言模型进行了比较,在两个图到文本数据集上评估了 GPT-3 和 ChatGPT 的性能。结果表明生成模型能够生成流畅和连贯的文本,AGENDA 和 WebNLG 数据集的 BLEU 分别达到 10.57 和 11.08。然而,我们的错误分析发现生成模型仍然难以理解实体之间的语义关系,并且倾向于生成存在幻觉或无关信息的文本。作为错误分析的一部分,我们使用 BERT 检测机器生成的文本,并实现了较高的宏 F1 得分。我们已公开提供生成模型生成的文本。
Jul, 2023
本文探讨了使用预先训练的 AudioLDM 模型作为声音生成的 “骨架” 在小数据量场景下实现优异表现的优势,并且比较了不同训练策略对模型性能的影响。同时,为了促进未来的研究,我们还在几个常用数据集上评估了各种文本生成语音系统,以允许公平比较和基准测试这些方法。
Mar, 2023
本文是一篇调查论文,研究了将自然语言处理(NLP)方法应用于符号音乐生成和信息检索的研究,提出了符号音乐的表示方法和深度学习模型,并讨论了 NLP 工具在符号音乐数据中的有效使用以及进一步研究的可能性。
Feb, 2024