Apr, 2023

音视频语义分割进一步探究

TL;DR本文提出一个新的策略:Visual Post-production (VPO),旨在构建经济实惠、相对公正的音频 - 视觉语义分割基准数据集,为此引入了像素级音频 - 视觉对比学习方法并验证了该策略的有效性,最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频 - 视觉语义分割。