基于知识的多模式音乐相似度

Jun, 2023

Knowledge-based Multimodal Music Similarity

Andrea Poltronieri

TL;DR本研究旨在开发一种可解释的音乐相似性分类系统，通过结合符号和音频内容，提高音乐检索、推荐和分析的效率和精度。

Abstract

music similarity is an essential aspect of music retrieval, recommendation systems, and music analysis. Moreover, similarity is of vital interest for music experts, as it allows studying analogies and influences

发现论文，激发创造

学习内容相似度进行音乐推荐

本文提出一种由协同过滤数据样本优化得到的基于内容相似度度量的音乐推荐系统，能够对于新颖或不受欢迎音乐领域的查询给出高精度和高效率的回答，并且在实验中得出了显著的精度改善。

May, 2011

多模态相似性学习

本文提出了一种基于多核学习以及基于图的过滤技术的方法，将多媒体数据中的多种模态融合到单一的相似度空间中，以解决多媒体数据中的主观问题和不一致问题。

Aug, 2010

音乐相似度的解耦多维度度量学习

本文介绍了一个新的多维相似度度量方法，通过深度度量学习和基于音轨的信息相结合，将全局和专业的相似性策略融合在了一起，使得音乐相似度搜索的结果更准确。作者在用户研究中证明了该方法具有显著性能优势。

Aug, 2020

歌词相似性感知的计算分析

比较分析了计算模型和人类感知中的歌词相似性，发现基于预训练 BERT 模型嵌入、歌曲音频和音素特征的计算模型能够准确表示感知中的歌词相似性，这一发现为相似性推荐系统的发展提供了伪标签和客观评估指标。

Apr, 2024

朝向稳健且真正大规模音频 - 乐谱检索

通过深度学习方法，通过跨模态音乐检索技术，连接大量乐谱图片和相应音频录音，解决音频和乐谱图片相互关联的问题，同时提出了一些挑战和方法来解决这些挑战，以实现跨模态音乐检索的统一和稳定的方法。

Sep, 2023

跨模态音乐视频推荐：设计选择研究

本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式，并利用预训练的 MuSimNet，OpenL3，MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中，通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果，验证了 VM-NET 的有效性。

Apr, 2021

音乐对比语音学习

本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法，提出了一种名为 MusCALL 的框架，采用双重编码器架构进行跨模态学习，实现音频和描述语句的对齐，生成用于文本到音频和音频到文本检索的多模式嵌入，实验表明我们的方法在音频与文本检索任务中比基线方法表现更好，并且可成功扩展应用于流派分类和自动标签的零样本转移场景。

Aug, 2022

基于语言引导的视频音乐推荐系统

该研究提出了一种音乐推荐的方法，允许用户使用自由形式的自然语言来引导音乐选择，解决了没有音乐文本描述的挑战，并使用文本合成方法训练了新的三模态模型，该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配，以匹配两个输入模态的准确性。

Jun, 2023

利用软内部模态结构约束的基于内容的视频音乐检索

本文介绍了一种新的基于内容的跨模态检索方法，通过深度神经网络实现视频和音乐之间的交叉检索，并使用软内部模态结构损失来保留模态特征，同时提出了标准化的实验协议并构建了一个大规模的视频 - 音乐匹配基准。

Apr, 2017

面向上下文感知的神经性能评分同步

研究表明，通过采用基于数据驱动、环境感知式度量学习的方法以及神经网络框架代替传统的基于知识和随机模型的方法，可以更好地实现音乐演奏和乐谱的同步对齐，进而从事音乐教育、音乐演出分析、自动伴奏和音乐编辑等多个领域的研究与应用。

May, 2022