Jul, 2024

视频上下文学习

TL;DR我们提出和研究了视频上下文学习,其中模型从现有视频片段开始生成多样的潜在未来序列,每个序列在语义上由提示的视频演示进行引导,并通过训练视频数据集上的自回归 Transformer 来模拟这个任务,通过各种评估指标展示了生成结果的视觉质量和语义准确性。