- 音乐结构的深度分析作为一个自组织网络
本文介绍了一种将音乐编码为文本的算法,并通过计算音乐中音调、时间和音量之间的相关性生成了 Essential Element Network(EEN)。通过优化 EEN 来生成 Zipf 定律从而生成并将语义关系联系作为单词。我们将这些编码 - 通过对话式播放列表数据集探究用户对音乐集合的偏好
研究了在音乐等消费领域中用户在一个充满多个项(例如播放列表或电台)的集合中提供偏好而不是单个项目的有效性,提出了一种数据收集方法从而使用户在自然语言中表达他们的偏好,并且在此基础上提出了一系列基准模型来实现对话式歌单策展任务。
- Jointist: 通过联合训练同时提高多乐器转录和音乐源分离
本文提出 Jointist,一种仪器感知的多仪器框架,可以从音频剪辑中转录、识别和分离多个乐器。Jointist 的新颖性质对于评估这种模型提出了新的视角,然而,在我们的实验中,该模型在多个下游任务上实现了性能的提升,包括转录,分离,下行拍 - Sonus Texere! 使用电影改编自动构建书籍的紧凑音轨
本文提出了一种全自动建立小说配乐的方法,该方法可以在阅读过程中播放高质量的配乐,通过文本处理和音乐编织管道识别章节中的情境和情感分布,并从小说的电影改编配乐中识别和播放相关片段。
- 光谱图是补丁的序列
本文介绍了一个名为 Patchifier 的自监督模型,利用 NLP 和 CV 领域的自监督学习方法,将音乐的频谱图作为一系列图块,并对其特征进行捕捉。使用仅包含 16k 个音乐片段的 MTAT 数据集进行预训练。该模型应用于多个下游任务, - 音乐生成的人工智能调查:代理、领域和视角
本文讨论了如何使用 AI 系统来模拟人类音乐创作的过程,同时分析了用于音乐生成的数据集、模型、用户界面以及未来的应用和研究方向。
- EMNLP音乐的情感个性化反应
通过开发计算化方法,从中国社交音乐平台上的四亿多听众评论中度量音乐情感反应,并测试了影响听众情感反应的各种因素,包括音乐、歌词、情境、人口统计、心理卫生等,最终发现了影响平台用户自披露的因素、社交支持以及披露者用户活跃度上的显著差异。
- 通过众包音乐评论连接音乐与文本:基于序列到序列框架的主题音乐评论生成
本文研究了如何自动生成音乐的文本描述,使用众包音乐评论构建了新数据集,并提出了一种序列到序列模型以及新的评估方法来衡量生成文本的质量。实验结果证明该模型能够生成流畅、有意义的评论,并包含原始音乐的主题和内容信息。
- 基于音乐的在线游戏关卡生成
本文基于经验驱动的强化学习和可控强化学习,构建了一个名为 OPARL 的通用框架,能够实现基于音乐的在线水平生成。通过一种新颖的基于局部搜索和 k 最近邻的控制策略,OPARL 能够考虑在线收集的游戏数据来控制关卡生成器,生成难度级别与音乐 - cMelGAN:基于 Mel 频谱的高效条件生成模型
研究了使用机器学习分析音乐的难点,提出了一种基于 Mel 频谱图和卷积神经网络架构的音乐创作生成模型 cMelGAN,并与基于音符的生成模型进行对比实验。
- 利用 GPT-3 生成音乐解释
本文研究了 GPT-3 在通过文本解释来表达音乐决策方面的能力,结果表明 GPT-3 缺乏理解音乐决策的必要智能,解决该问题的主要障碍是缺乏艺术家创作音乐时解释过程的数据资源。
- 利用印度古典音乐中的 Raga-Rasa 协会的双采样方法对音乐情绪进行分类
研究印度古典音乐中,不同的 raga 如何引发听众的不同情绪,探索了一种利用 raga-rasa 相关性的新型框架,结合音频信号处理和机器学习技术,构建了智能分类器以及基于用户当前情绪和所期望的情绪的音乐推荐系统。
- MM双向学习音乐创作与舞蹈编排
研究音乐和舞蹈生成模型,提出了一种双重学习方法,既可以为给定的舞蹈创作音乐,又可以为音乐创作舞蹈编排,以使生成的作品更加逼真和符合条件的输入。
- 探索赋格曲的图形表示
该研究探讨了音乐、图论和机器学习领域的重叠区域,通过一种加权无向图的节点嵌入表征探究了 383 个巴赫赞美诗的具体表现形式,并且验证了此方法在音乐应用中的应用价值。
- Dance2Music: 自动舞蹈驱动音乐生成
本研究探索了实现在给定舞蹈的情况下生成音乐的可能性,并基于搜索算法和深度神经网络开发了两种不同的方法,并通过与强启发法基准模型的比较,证明了这些方法的有效性。
- Transflower:多模态注意力下的概率自回归舞蹈生成
本研究提出了一种基于 Transformer 模型,结合之前姿势以及音乐情境来建模未来舞蹈动作分布的概率自回归模型,同时使用了包括专业舞者和业余舞者的当前最大的 3D 舞蹈动作数据集,通过物体评价和用户调查对比了两个基准模型,并表明要生成与 - AAAI深度音频嵌入在音乐情感识别中的比较与分析
本文研究深度音频嵌入技术对于音乐情感识别领域的应用,探讨了 L3-Net 和 VGGish 等深度音频嵌入方法在情感识别上的表现,结果表明这些方法可有效提高基线情感识别模型的性能,且不需要人工专家工程。
- AAAIDanceFormer:基于参数化运动变换器的音乐驱动 3D 舞蹈生成
本研究通过先生成关键姿势再进行中间参数运动曲线预测的两阶段过程,提出了一种新的方法 DanceFormer,通过两个级联的运动学增强变换器指导网络(称为 DanTrans)处理每个阶段,在现有数据集的训练下可以生成超过以前的研究成果的流畅、 - AI 编舞家:基于 AIST++ 的音乐驱动 3D 舞蹈生成
使用 AIST++ 数据集和 FACT 网络,我们展示了可以产生逼真,与输入音乐很好匹配的 3D 舞蹈动作的方法。
- 学习跳舞:一种图卷积对抗网络,从音频中生成逼真的舞蹈动作
本文利用基于图形卷积网络的新方法,通过学习技术从音频信息中自动生成舞蹈,结果显示这种方法在产生自然运动方面优于现有方法。