Aug, 2023
通过语言将高质量音频和视频连接起来,以便从视觉查询中检索音效
Bridging High-Quality Audio and Video via Language for Sound Effects Retrieval from Visual Queries
Julia Wilkins, Justin Salamon, Magdalena Fuentes, Juan Pablo Bello, Oriol Nieto
TL;DR使用多模态框架和对比学习方法,基于高质量音视频数据实现了音效检索系统的建立,该系统在视频中检索高质量音效的任务上明显优于其他基准系统,并能在不同质量的音视频数据上具有很好的泛化性能,同时用户调查证实了人们更倾向于使用该系统检索音效。