Apr, 2025
无训练引导的文本到视频生成:多模态规划与结构噪声初始化
Training-free Guidance in Text-to-Video Generation via Multimodal
Planning and Structured Noise Initialization
TL;DR本研究针对现有文本到视频生成模型在根据文本描述准确控制空间布局和对象轨迹时的不足,提出了一种无需训练的引导方法Video-MSG。该方法通过生成细粒度的时空计划(Video Sketch)来指导下游的T2V扩散模型,从而提高了文本对齐的效果,且在推理阶段无需额外的内存消耗,便于大规模T2V模型的应用。