Dec, 2023

合作有关系:探索多阶双边关系用于音频视觉分割

TL;DR提出了一种名为 COMBO 的创新的音频 - 视觉转换器框架,其中探索了音频 - 视觉分割中的像素纠缠、模态纠缠和时间纠缠等三种纠缠关系,通过各种实验和消融研究表明该方法优于以往的最先进方法。