CVPRMar, 2023

基于语言引导的三模态一致性音视频源分离

TL;DR利用自监督学习方法,通过自然语言查询基于无标注视频和音频对进行音频源分离的学习,以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合,其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督,并在推理阶段能够分离声音,即使没有目标检测器或文本标签。