Aug, 2023

BAVS:通过整合基础知识引导音频 - 视觉分割

TL;DR本文提出了一种基于多模态基础知识的两阶段引导式音频 - 视觉分割框架用于消除分割中的背景噪音或离屏音,通过明确建立音频 - 视觉对应关系和在音频 - 视觉树上追踪校准对象标签的方式,实现了真实音频对象的有效分割。