Mar, 2024

探索预训练的文本到视频传播模型用于视频对象分割

TL;DR探索了基于预训练的文本到视频(T2V)扩散模型产生的视觉表示,在视频理解任务中的应用,通过验证经典的参考视频对象分割(R-VOS)任务的假设,介绍了一个名为“VD-IT”的新框架,结合了预训练的T2V模型,利用文本信息作为条件输入,确保时间上的语义一致性,进一步加入图像标记作为补充文本输入,丰富特征集合以生成详细和细腻的掩码,并且通过大量实验证明,与常用的基于图像/视频预训练任务的视频骨干网络(例如Video Swin Transformer)相比,固定的生成T2V扩散模型在保持语义对齐和时间一致性方面具有更好的潜力,在现有的标准基准上,VD-IT取得了非常有竞争力的结果。