Mar, 2024

无监督音频视觉分割与模态对齐

TL;DR通过无监督学习方法 MoCA,在像素级上将音频和视觉图像相互关联,实现音频视觉分割的目标,超过基线方法并在复杂情况下实现了显著的性能提升。