Aug, 2024

CaRDiff:基于扩散的显著性预测视频显著目标排序思维链推理

TL;DR本文解决了现有视频显著性预测方法没有充分利用语言推理过程的局限性。提出的CaRDiff框架通过结合多模态大语言模型和扩散模型,创新性地引入了VSOR-CoT方法,有效提高了对视频内容的显著性判断。研究结果显示,CaRDiff在MVS数据集上的表现优于现有的先进模型,并在DHF1k数据集上表现出跨数据集的强大能力。