Jul, 2023

对比条件潜扩散在视听分割中的应用

TL;DR通过潜在扩散模型和对比学习,我们提出了一种用于音频 - 视觉分割的模型,以深入探究音频的贡献。我们将音频视为有条件生成任务,其中音频被定义为声音生成器分割的条件变量。我们的潜在扩散模型通过对地面真实分割地图的条件生成过程进行学习,确保了音频与最终分割地图的相关性。对比学习使我们的模型学习音频 - 视觉对应关系,并最大化模型预测和音频数据之间的互信息,从而明确地增加音频对音频 - 视觉分割的贡献。实验结果验证了我们解决方案的有效性。