基于知识的多模式音乐相似度
本文提出一种由协同过滤数据样本优化得到的基于内容相似度度量的音乐推荐系统,能够对于新颖或不受欢迎音乐领域的查询给出高精度和高效率的回答,并且在实验中得出了显著的精度改善。
May, 2011
本文介绍了一个新的多维相似度度量方法,通过深度度量学习和基于音轨的信息相结合,将全局和专业的相似性策略融合在了一起,使得音乐相似度搜索的结果更准确。作者在用户研究中证明了该方法具有显著性能优势。
Aug, 2020
比较分析了计算模型和人类感知中的歌词相似性,发现基于预训练 BERT 模型嵌入、歌曲音频和音素特征的计算模型能够准确表示感知中的歌词相似性,这一发现为相似性推荐系统的发展提供了伪标签和客观评估指标。
Apr, 2024
通过深度学习方法,通过跨模态音乐检索技术,连接大量乐谱图片和相应音频录音,解决音频和乐谱图片相互关联的问题,同时提出了一些挑战和方法来解决这些挑战,以实现跨模态音乐检索的统一和稳定的方法。
Sep, 2023
本研究在音乐 / 视频跨模态推荐方面采用自监督学习范式,并利用预训练的 MuSimNet,OpenL3,MusicCNN 或 AudioSet 等音频嵌入来大幅改善推荐效果。其中,通过跨模态三元组损失进行学习比通常自监督学习采用的二元交叉熵损失具有更好的效果,验证了 VM-NET 的有效性。
Apr, 2021
本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法,提出了一种名为 MusCALL 的框架,采用双重编码器架构进行跨模态学习,实现音频和描述语句的对齐,生成用于文本到音频和音频到文本检索的多模式嵌入,实验表明我们的方法在音频与文本检索任务中比基线方法表现更好,并且可成功扩展应用于流派分类和自动标签的零样本转移场景。
Aug, 2022
该研究提出了一种音乐推荐的方法,允许用户使用自由形式的自然语言来引导音乐选择,解决了没有音乐文本描述的挑战,并使用文本合成方法训练了新的三模态模型,该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配,以匹配两个输入模态的准确性。
Jun, 2023
本文介绍了一种新的基于内容的跨模态检索方法,通过深度神经网络实现视频和音乐之间的交叉检索,并使用软内部模态结构损失来保留模态特征,同时提出了标准化的实验协议并构建了一个大规模的视频 - 音乐匹配基准。
Apr, 2017
研究表明,通过采用基于数据驱动、环境感知式度量学习的方法以及神经网络框架代替传统的基于知识和随机模型的方法,可以更好地实现音乐演奏和乐谱的同步对齐,进而从事音乐教育、音乐演出分析、自动伴奏和音乐编辑等多个领域的研究与应用。
May, 2022