CVPRJun, 2022

音乐和视频的艺术通信时代

TL;DR本文提出了一种基于自我监督学习的方法,使用 Transformer 网络建模视频和音乐信号的长期时间上下文,以实现音乐和视频之间的艺术语义对应以及它们之间的互相推荐,并在实验中表现出很强的性能优势。