Mar, 2025

多主体视频生成的连贯性:基于多模态大语言模型的指导

TL;DR本研究针对个性化多主体视频生成这一仍然未被充分探索的问题,提出了CINEMA框架。通过利用多模态大语言模型,CINEMA消除了主体图像与文本实体之间的明确对应关系,减少了歧义,并提高了主体一致性与视频连贯性。该方法的推广潜力为故事叙述、互动媒体及个性化视频生成提供了新方向。