Aug, 2023

通过语言将高质量音频和视频连接起来,以便从视觉查询中检索音效

TL;DR使用多模态框架和对比学习方法,基于高质量音视频数据实现了音效检索系统的建立,该系统在视频中检索高质量音效的任务上明显优于其他基准系统,并能在不同质量的音视频数据上具有很好的泛化性能,同时用户调查证实了人们更倾向于使用该系统检索音效。