Jan, 2025

基于预训练滚动编码器的分层语言建模钢琴转录

TL;DR本研究解决了自动音乐转录中的长序列处理和手动阈值问题,提出了一种结合预训练滚动编码器和语言模型解码器的混合方法。通过分层预测策略,让我们在 onset、音高、音量和 offset 的预测中降低计算成本,评估结果显示该方法在性能上明显优于传统的钢琴滚动输出。