May, 2024

TALC: 多场景文本到视频生成的时间对齐字幕

TL;DR我们介绍一种称为 Time-Aligned Captions(TALC)框架的方法,通过增强文本条件机制,使得文本到视频(T2V)模型能够生成符合多场景文本描述的多场景视频,并且在视觉上具有一致性。通过使用 TALC 框架对预训练的 T2V 模型进行微调,我们展示了与基线方法相比,TALC 微调模型在整体评分上优于基线方法 15.5 个百分点,综合考虑了视觉一致性和文本符合度。