用循环模型进行音频 - 乐谱检索的片段摘要

Sep, 2023

用循环模型进行音频 - 乐谱检索的片段摘要

Passage Summarization with Recurrent Models for Audio-Sheet Music Retrieval

Luis Carvalho, Gerhard Widmer

TL;DR设计了一种跨模态循环网络，通过学习联合嵌入，能够总结相应音频和乐谱的更长的段落，解决了强对齐数据和音频与乐谱节奏差异导致的局部和全局差异问题，并在实验中验证了该方法在所有可能的配置中进行更准确的检索。

Abstract

Many applications of cross-modal music retrieval are related to connecting sheet music images to audio recordings. A typical and recent approach to this is to learn, via deep neural networks, a →

cross-modal music retrieval deep neural networks joint embedding space tempo differences recurrent network

发现论文，激发创造

朝向稳健且真正大规模音频 - 乐谱检索

通过深度学习方法，通过跨模态音乐检索技术，连接大量乐谱图片和相应音频录音，解决音频和乐谱图片相互关联的问题，同时提出了一些挑战和方法来解决这些挑战，以实现跨模态音乐检索的统一和稳定的方法。

Sep, 2023

自监督对比学习用于稳健的音乐 - 乐谱检索系统

我们通过自监督对比学习的方法，研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制，并提出了经过预训练的模型能够更好地检索音乐片段，并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。

Sep, 2023

针对乐谱图像的分数跟随技术

本文介绍了一种通过神经网络匹配短音频片段与乐谱中对应像素位置的方法。实验结果表明，使用深度学习技术处理音乐乐谱具有可行性且是一个有前途的研究方向。

Dec, 2016

针对乐谱识别和离线对齐的音频 - 乐谱对应关系学习

该研究使用神经网络跨模态嵌入空间解决音频和乐谱图像之间的匹配问题，并在五个不同作曲家的古典钢琴音乐上进行实验，展示出多模态神经网络处理乐谱和音频的成果。

Jul, 2017

朝向端到端的音频 - 乐谱检索

本文旨在研究跨媒体检索中的乐曲检索，基于 Deep Canonical Correlation Analysis 学习相关空间，能够检索图片和音频之间的乐曲片段，初步实验结果有所进展。

Dec, 2016

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018

使用循环神经网络进行音乐情感预测

本研究探讨了应用循环神经网络识别音乐中传达的情感，旨在通过将音乐调整到适合听众的情感状态，增强音乐推荐系统并支持治疗干预。我们使用 Russell 的情感象限将音乐分类为四个不同的情感区域，并开发了能够准确预测这些类别的模型。我们的方法涉及使用 Librosa 提取全面的音频特征，并应用各种循环神经网络架构，包括标准 RNN，双向 RNN 和 LSTM 网络。初步实验使用包含 900 个已标记情感象限的音频片段数据集进行，我们将神经网络模型的性能与一组基准分类器进行比较，并分析其在捕捉音乐表达中固有的时间动态方面的有效性。结果表明，在较小的数据集中，较简单的 RNN 架构的表现可能与更复杂的模型相当甚至更优。我们还在较大的数据集上应用了以下实验：一是基于我们原始数据集进行的增强，另一是来自其他来源。这项研究不仅增进了我们对音乐情感影响的理解，还展示了神经网络在创建更个性化和情感共鸣的音乐推荐和治疗系统方面的潜力。

May, 2024

跨模态音乐视频推荐：设计选择研究

本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式，并利用预训练的 MuSimNet，OpenL3，MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中，通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果，验证了 VM-NET 的有效性。

Apr, 2021

音乐检索中音频和歌词的深度跨模态相关性学习

本文介绍了一种音频和歌词之间深度序列相关性的跨模态学习架构，其中涉及两个分支的深度神经网络，通过转换到相同的规范空间并利用互模态规范相关分析作为目标函数来计算时间结构的相似性。实验结果证实了所提出跨模态音乐检索的深度相关学习体系结构的有效性。

Nov, 2017