符号音乐的字节对编码
本文研究了在符号音乐生成中,应用子词分词技术(如 Byte-pair Encoding)对生成歌曲结构和长度的影响,以及与音乐生成质量指标(如结构指标,Pitch Class Entropy 等)之间的关系。结果表明子词分词技术有望改善符号音乐生成质量,尤其是在生成多轨复杂数据时具有广泛的实际应用价值。比较 BPE 和 Unigram 两种方法的结果得出,两种方法均能带来稳定的改进。
Apr, 2023
本文介绍了如何用预训练模型 MusicBERT 进行符号音乐理解,并讨论了其中涉及的关键技术,包括 OctupleMIDI 编码和小节层面的掩蔽策略。实验证明,MusicBERT 在旋律完成、伴奏建议、流派、和风格分类等四项任务中具有优越性。
Jun, 2021
本研究分析了常见的符号化音乐分词方法以及时间和音符长度表示对深度学习模型性能的影响,并通过多个任务的比较展示了直接信息在不同任务中提供更好的结果。
Oct, 2023
本文研究了使用字节对编码(称为 BPE units)以及拼音音节作为翻译任务基本单元的效果, 结果表明,BPE units 作为翻译单元略优于拼音音节单元, 并且更适用于非元音书写系统的语言。
Oct, 2016
通过实验证明,对于孟加拉语,Byte pair encoding (BPE) 是一种在自动语音识别(ASR)中改善识别性能的有效分词方法,较佳的 BPE token 数量为大约 500-1000 个。
Jan, 2024
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020
通过子模函数,我们将 BPE 形式化为组合优化问题,并证明了迭代贪心版本是最佳合并序列的 1/sigma (mu*)-(1-e^(sigma (mu*)))- 近似,其中 sigma (mu*) 是相对于最佳合并序列 mu * 的总反向曲率。此外,我们优化了朴素算法以实现最佳 BPE。
Jun, 2023
本文旨在利用实现自 Li 等人的神经网络进行代码自动补全,我们将该神经网络应用了介于字符和单词编码之间的字节对编码(BPE)对源代码文件进行处理,而无需先转换为抽象语法树(AST)。我们实现了两个模型:一个注意力增强的 LSTM 模型和一个指针网络模型,其中指针网络最初是用来解决词汇表外单词问题的。我们感兴趣的是 BPE 是否能够替代指针网络进行代码自动补全。
Apr, 2020
提出了一种置换不变的语言模型 SymphonyNet 作为符号交响乐音乐生成的解决方案,使用基于 Transformer 的自回归语言模型和具有特定 3D 位置嵌入的 MMR 表示来建模音乐序列。为解决额外长的交响乐符号建模时的长度溢出问题,引入了一种修改后的字节对编码算法(Music BPE),并提出了一种新的线性变换器解码器架构作为主干,同时通过屏蔽输入中的乐器信息来训练解码器学习自动管弦乐。同时,引入了一个用于符号交响乐的大规模数据集,实验结果表明,所提出的方法是多轨多乐器符号音乐生成的先锋解决方案。
May, 2022