基于离线强化学习的在线符号音乐对齐
该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题,并在五个不同作曲家的古典钢琴音乐上进行实验,展示出多模态神经网络处理乐谱和音频的成果。
Jul, 2017
研究表明,通过采用基于数据驱动、环境感知式度量学习的方法以及神经网络框架代替传统的基于知识和随机模型的方法,可以更好地实现音乐演奏和乐谱的同步对齐,进而从事音乐教育、音乐演出分析、自动伴奏和音乐编辑等多个领域的研究与应用。
May, 2022
通过一系列实验证明在线方法优于离线方法,且离线算法训练的策略对生成任务更差,而在线算法对成对分类较差,提示在线采样在人工智能对齐中扮演了关键角色,并暗示了离线对齐算法的一些基本挑战。
May, 2024
本文提出了一种基于多模态马尔可夫决策过程和深度强化学习的乐谱跟踪算法,通过学习模型跟踪从图像中读取的乐谱,结合音频信号达到正确的乐谱位置,并在实验证明该算法优于传统的乐谱跟踪方法。
Jul, 2018
提出了 MusicRL,这是第一个通过人类反馈进行微调的音乐生成系统,使用强化学习和人类反馈训练 MusicRL-R 和 MusicRL-U 模型,结果显示这两种模型在人类评估中优于基线模型,并强调了音乐欣赏中的主观性以及需要进一步引入人类听众在音乐生成模型的微调中。
Feb, 2024
使用强化学习技术,在模拟的歌单生成环境中直接优化用户满意度指标,从而实现对大规模和动态候选歌曲集的个性化推荐。通过离线模拟和在线 A/B 测试验证,该方法相对于基线方法在用户满意度指标上表现更好,并且通过模拟器得到的性能评估与在线指标结果强相关。
Oct, 2023
NoteEM 是一种自动化的乐曲信息获取方法,能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容,其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在 MAPS 数据集上取得了最好的记录水平准确度,并在跨数据集评估中也表现出积极优势。
Apr, 2022
该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战,在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC,它通过自我对战来实现,灵感来自离线强化学习领域的平均悲观技术,将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析,并展示了其具有竞争性的实证性能。
Jun, 2024
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023