Mar, 2025

Any2Caption:解释任何条件以生成可控视频的标题

TL;DR本研究针对视频生成领域中用户意图解释的瓶颈,提出了Any2Caption框架,可在任何条件下进行可控视频生成。该框架采用现代多模态大语言模型,将多种输入(如文本、图像、视频及特定提示)解耦为结构化的标题,从而为视频生成器提供更好的指导。评估结果显示,该系统在可控性和视频质量方面显著提升。