基于离线强化学习的在线符号音乐对齐

Dec, 2023

基于离线强化学习的在线符号音乐对齐

Online Symbolic Music Alignment with Offline Reinforcement Learning

Silvan David Peter

TL;DR该研究介绍了一种基于强化学习的在线符号音乐对齐技术，利用注意力机制的神经网络估计乐谱位置，并通过三种方式进行评估，优于当前最先进的离线符号音乐对齐模型。

Abstract

symbolic music alignment is the process of matching performed MIDI notes to corresponding score notes. In this paper, we introduce a reinforcement learning (RL)-based online →

symbolic music alignment reinforcement learning online alignment attention-based neural network dynamic time warping

发现论文，激发创造

针对乐谱识别和离线对齐的音频 - 乐谱对应关系学习

该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题，并在五个不同作曲家的古典钢琴音乐上进行实验，展示出多模态神经网络处理乐谱和音频的成果。

Jul, 2017

面向上下文感知的神经性能评分同步

研究表明，通过采用基于数据驱动、环境感知式度量学习的方法以及神经网络框架代替传统的基于知识和随机模型的方法，可以更好地实现音乐演奏和乐谱的同步对齐，进而从事音乐教育、音乐演出分析、自动伴奏和音乐编辑等多个领域的研究与应用。

May, 2022

音频与谱对准的混合方法

使用神经网络作为 Dynamic Time Warping (DTW) 方法的预处理步骤，可以生成鲁棒的、适应性强的自动音乐配准。

Jul, 2020

在线和离线配准算法之间性能差距的理解

通过一系列实验证明在线方法优于离线方法，且离线算法训练的策略对生成任务更差，而在线算法对成对分类较差，提示在线采样在人工智能对齐中扮演了关键角色，并暗示了离线对齐算法的一些基本挑战。

May, 2024

学习聆听、阅读和跟随：将乐谱跟随作为一种强化学习游戏

本文提出了一种基于多模态马尔可夫决策过程和深度强化学习的乐谱跟踪算法，通过学习模型跟踪从图像中读取的乐谱，结合音频信号达到正确的乐谱位置，并在实验证明该算法优于传统的乐谱跟踪方法。

Jul, 2018

音乐 RL：将音乐生成与人类喜好对齐

提出了 MusicRL，这是第一个通过人类反馈进行微调的音乐生成系统，使用强化学习和人类反馈训练 MusicRL-R 和 MusicRL-U 模型，结果显示这两种模型在人类评估中优于基线模型，并强调了音乐欣赏中的主观性以及需要进一步引入人类听众在音乐生成模型的微调中。

Feb, 2024

通过基于模拟的强化学习的自动音乐播放列表生成

使用强化学习技术，在模拟的歌单生成环境中直接优化用户满意度指标，从而实现对大规模和动态候选歌曲集的个性化推荐。通过离线模拟和在线 A/B 测试验证，该方法相对于基线方法在用户满意度指标上表现更好，并且通过模拟器得到的性能评估与在线指标结果强相关。

Oct, 2023

野外音乐自动转录的非对齐监督

NoteEM 是一种自动化的乐曲信息获取方法，能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容，其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在 MAPS 数据集上取得了最好的记录水平准确度，并在跨数据集评估中也表现出积极优势。

Apr, 2022

自博弈对抗评论家：可证明和可扩展的离线对齐语言模型

该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战，在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC，它通过自我对战来实现，灵感来自离线强化学习领域的平均悲观技术，将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析，并展示了其具有竞争性的实证性能。

Jun, 2024

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023