CVPRMar, 2024

DiffSal: 扩散显著性预测的音频和视频联合学习

TL;DR本研究提出了一种基于扩散架构的音视频显著性预测方法(DiffSal),使用音频和视频作为条件,通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题,并在六个具有挑战性的音视频基准任务中取得了优秀的性能。