Aug, 2023

利用大型语言模型增强面向动态感知的文本到视频扩散

TL;DR通过设计一个创新的动态场景管理器 (Dysen) 模块,该模块可以从输入文本中提取关键动作并将其以适当的时间顺序和动态场景图 (DSG) 表示转换,从而丰富了视频的场景细节,并与主干的T2V DM相结合来实现高质量的文本到视频生成。