- Music2Dance:音乐驱动的舞蹈生成 DanceNet
该论文提出了一种基于自回归生成模型的新方法 DanceNet,以音乐的风格、节奏和旋律为控制信号生成具有高度真实感和多样性的 3D 舞蹈动作,并通过专业舞者捕捉了多组同步的音乐舞蹈配对数据集以提高模型性能,实验结果表明所提出的方法达到了最先 - 波形域音乐源分离
本文比较了两种不同的音乐源分离模型:Conv-Tasnet 和 Demucs。实验结果表明,Demucs 模型通过采用恰当的数据增广技术,在音乐分离任务上优于 Conv-Tasnet 模型,同时其语音自然度表现也更佳。
- 使用音乐启发的嵌入实现准确可扩展的版本识别
本文提出了一种名为 MOVE 的方法来进行音乐版本鉴别,该方法利用三元组损失和硬三元组挖掘策略学习可伸缩嵌入,采用了另一种输入表示方法,并引入了一种新的时间内容概述技术、标准化的潜在空间和专门为版本鉴别设计的数据扩增策略,并在两个公开基准数 - Demucs: 深度源音频分离器及其在额外未标注数据中的应用
本文使用深度学习等方法对音乐进行源分离研究,提出了一种卷积和循环的模型,同时提出了一种新的方法来利用无标签的音乐数据,这些方法比现有的方法表现更好。
- MM自动音乐情感识别的新多标签系统
本研究从机器学习角度分析了 Geneva Emotional Music Scale 9 在 Emotify 音乐数据集中的适用性,探讨了情感通过音乐表达感染的自动识别。
- 逆序列变换学习微动感
使用 Seq2Seq 和 VIB 模型翻译抽象的音乐想法,探索音乐与鼓乐的生成模型并创造了 13 小时专业鼓手的数据集,拓展了生成模型的创造潜力。
- 从上下文到概念:利用 Word2Vec 探索音乐中的语义关系
使用 word2vec 计算模型探索多种风格音乐的语义信息,研究显示这种新的嵌入矢量表征实际上捕捉到了音乐的音调和和声特性,为深度学习模型提供了潜在的输入表示,并提供了音乐创作工具。
- 音乐驱动的编舞生成:使用自回归编码器 - 解码器网络
通过使用自回归编码解码网络设计了一种音乐驱动舞蹈编排生成系统,该网络利用音乐和对应的舞蹈运动,运用多媒体片段进行训练,能够在只有音乐输入的情况下生成新的舞蹈运动。经过用户研究,结果表明该方法可以生成富有音乐感和自然的新舞蹈动作。
- 使用 MAESTRO 数据集实现分解式钢琴音乐建模和生成
该研究使用 MAESTRO 数据集中的音符事件作为中间表示,训练了一系列的神经网络模型,用于转录、合成和生成具备连贯乐曲结构的音频波形,从而实现了跨六个数量级(0.1ms 到 100s)的音频合成。
- 端到端音乐源分离:在波形领域是否可能?
本论文研究使用端到端模型进行音乐信号源分离,在考虑所有可用信息的基础上实现对原始音频信号(包括相位部分)的源分离。结果表明,我们提出的一种基于 Wavenet 的模型和 Wave-U-Net 的性能都可以优于 DeepConvSep,一个基 - 符号音乐风格转换与 CycleGAN
本文介绍了使用生成模型(如变分自编码器和生成对抗网络)将基于样式和域的转换技术应用于图像和音乐,并利用具有附加鉴别器的 GAN 模型成功实现了音乐流派转换。该文是 GANs 首次应用于音乐域转换的研究。
- 音乐变形器
提出了一种使用修改后的相对注意力机制来设计变形金刚神经网络的算法,用于音乐作曲、演奏和生成任务,并在 JSB Chorales 和 Piano-e-Competition 数据集上获得了最先进的结果。
- ICML使用相位特征改进基于 DNN 的音乐源分离
本文探讨了利用深度神经网络在音乐源分离中仅依赖幅度特征与在加入相位特征后分离性能的提升,提出了一种新的神经网络结构,该结构结合了幅度和相位,实验结果表明,相比仅使用幅度特征的网络,在 DSD100 测试集上使用相位衍生特征能够有效提升音频信 - 基于数据驱动的中层次音乐特征建模方法
通过使用深度学习,本文提取了中等级别的音乐特征和描述符,并在情感识别方面进行了应用。
- 用于符号旋律生成的分层循环神经网络
本文介绍了一种分层递归神经网络用于创作旋律的方法,该方法通过多个 LSTM 子网络从粗到细逐层生成小节结构、节奏结构和音符,通过两个人类行为实验证明了这种结构相对于单层 LSTM 和现有的 MIdiNet 和 MusicVAE 模型更适合创 - AAAI通过玩音乐拼图游戏生成音乐混搭
提出一种基于自监督学习的音乐拼图游戏,旨在训练神经网络模型学习音乐中的序列模式,并利用基于时序片段的相似度得分,提出了改进的网络结构来实现元素的排序,该模型表现优于其他相似模型,且在多个游戏难度中均表现出色。
- MM评估针对群体的音乐推荐系统
本文介绍了一个用户研究,记录了参与者个人和共享的喜好,以此建立一个标准化的评估基准,比较了各种音乐组推荐技术在群体表现方面的差异,并与研究社区分享了基准数据集。
- WaveNet:原始音频的生成模型
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
- 相似图形修复长音频片段
该研究提出了一种针对音频信号中长时间数据丢失的新方法,基于图表达时间持久的频谱相似度来遮盖信号缺陷,通过优化方案和平滑插入到丢失或失真的信号区域,该算法在多种真实世界音乐信号测试中表现出了极具前景的结果。