Mar, 2024

探索预训练的文本到视频传播模型用于视频对象分割

TL;DR探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示,在视频理解任务中的应用,通过验证经典的参考视频对象分割 (R-VOS) 任务的假设,介绍了一个名为 “VD-IT” 的新框架,结合了预训练的 T2V 模型,利用文本信息作为条件输入,确保时间上的语义一致性,进一步加入图像标记作为补充文本输入,丰富特征集合以生成详细和细腻的掩码,并且通过大量实验证明,与常用的基于图像 / 视频预训练任务的视频骨干网络(例如 Video Swin Transformer)相比,固定的生成 T2V 扩散模型在保持语义对齐和时间一致性方面具有更好的潜力,在现有的标准基准上,VD-IT 取得了非常有竞争力的结果。