朝向端到端的音频 - 乐谱检索
通过深度学习方法,通过跨模态音乐检索技术,连接大量乐谱图片和相应音频录音,解决音频和乐谱图片相互关联的问题,同时提出了一些挑战和方法来解决这些挑战,以实现跨模态音乐检索的统一和稳定的方法。
Sep, 2023
使用 S-DCCA 算法构建跨模态音乐视频检索模型,其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块,使得得到的局部音频摘要能够很好地代表整个音频内容,构建的深度学习模型实现了音频和视频语义的跨模态学习,从而实现了跨模态情感相似的音乐视频检索,并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。
Aug, 2019
该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题,并在五个不同作曲家的古典钢琴音乐上进行实验,展示出多模态神经网络处理乐谱和音频的成果。
Jul, 2017
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
设计了一种跨模态循环网络,通过学习联合嵌入,能够总结相应音频和乐谱的更长的段落,解决了强对齐数据和音频与乐谱节奏差异导致的局部和全局差异问题,并在实验中验证了该方法在所有可能的配置中进行更准确的检索。
Sep, 2023
通过对多模态数据的构建和深度学习模型的训练,本文提出了一种在音频和歌词之间学习对准关系的方法,并通过此方法优化跨模态对齐,并为音乐搜索和推荐提供了理论和实证结果。
Dec, 2022
本研究提出了三个新的跨模态检索基准,用于研究现有文献中关注度较低的文本 — 音频和音频 — 文本检索任务。研究团队通过不同音频任务的预训练,在这三个基准上建立了交叉模态文本 — 音频和音频 — 文本检索的基线,并公开了数据集和代码,希望这些基准能够激发有关自由文本查询的音频检索的研究。
Dec, 2021