朝向端到端的音频 - 乐谱检索 | BriefGPT

NIPSDec, 2016

朝向端到端的音频 - 乐谱检索

Towards End-to-End Audio-Sheet-Music Retrieval

Matthias Dorfer, Andreas Arzt, Gerhard Widmer

TL;DR本文旨在研究跨媒体检索中的乐曲检索，基于 Deep Canonical Correlation Analysis 学习相关空间，能够检索图片和音频之间的乐曲片段，初步实验结果有所进展。

Abstract

This paper demonstrates the feasibility of learning to retrieve short snippets of sheet music (images) when given a short query excerpt of music (audio) -- and vice versa --, without any symbolic representation of music or scores. This would be highly useful in many content-based musical retrieval scenarios. Our approach is based on →

music retrieval cross-modality retrieval deep canonical correlation analysis sheet music snippets monophonic music

发现论文，激发创造

朝向稳健且真正大规模音频 - 乐谱检索

通过深度学习方法，通过跨模态音乐检索技术，连接大量乐谱图片和相应音频录音，解决音频和乐谱图片相互关联的问题，同时提出了一些挑战和方法来解决这些挑战，以实现跨模态音乐检索的统一和稳定的方法。

Sep, 2023

针对乐谱图像的分数跟随技术

本文介绍了一种通过神经网络匹配短音频片段与乐谱中对应像素位置的方法。实验结果表明，使用深度学习技术处理音乐乐谱具有可行性且是一个有前途的研究方向。

Dec, 2016

通过受监督的深度 CCA 实现跨模式音乐视频检索的音频 - 视觉嵌入

使用 S-DCCA 算法构建跨模态音乐视频检索模型，其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块，使得得到的局部音频摘要能够很好地代表整个音频内容，构建的深度学习模型实现了音频和视频语义的跨模态学习，从而实现了跨模态情感相似的音乐视频检索，并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。

Aug, 2019

针对乐谱识别和离线对齐的音频 - 乐谱对应关系学习

该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题，并在五个不同作曲家的古典钢琴音乐上进行实验，展示出多模态神经网络处理乐谱和音频的成果。

Jul, 2017

自监督对比学习用于稳健的音乐 - 乐谱检索系统

我们通过自监督对比学习的方法，研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制，并提出了经过预训练的模型能够更好地检索音乐片段，并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。

Sep, 2023

用循环模型进行音频 - 乐谱检索的片段摘要

设计了一种跨模态循环网络，通过学习联合嵌入，能够总结相应音频和乐谱的更长的段落，解决了强对齐数据和音频与乐谱节奏差异导致的局部和全局差异问题，并在实验中验证了该方法在所有可能的配置中进行更准确的检索。

Sep, 2023

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

使用自然语言查询的音频检索

本研究介绍了新的基准，使用自由形式的自然语言查询中的文本注释，旨在研究文本查询的语音检索问题，同时探讨跨模态音频检索的优势和基准，以及优化方法。

May, 2021

使用自然语言查询的音频检索：基准研究

本研究提出了三个新的跨模态检索基准，用于研究现有文献中关注度较低的文本 — 音频和音频 — 文本检索任务。研究团队通过不同音频任务的预训练，在这三个基准上建立了交叉模态文本 — 音频和音频 — 文本检索的基线，并公开了数据集和代码，希望这些基准能够激发有关自由文本查询的音频检索的研究。

Dec, 2021

基于知识的多模式音乐相似度

本研究旨在开发一种可解释的音乐相似性分类系统，通过结合符号和音频内容，提高音乐检索、推荐和分析的效率和精度。

Jun, 2023