Aug, 2023
BAVS:通过整合基础知识引导音频 - 视觉分割
BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation Knowledge
Chen Liu, Peike Li, Hu Zhang, Lincheng Li, Zi Huang...
TL;DR本文提出了一种基于多模态基础知识的两阶段引导式音频 - 视觉分割框架用于消除分割中的背景噪音或离屏音,通过明确建立音频 - 视觉对应关系和在音频 - 视觉树上追踪校准对象标签的方式,实现了真实音频对象的有效分割。