Oct, 2024

通过分解编码和条件增强文本到视频生成中的运动

TL;DR本研究解决了文本到视频(T2V)生成中视频运动表现不佳的问题,现有模型往往无法捕捉到复杂的动态表现。我们提出了一种新框架DEMO,通过将文本编码和条件分解为内容和运动组件,显著提高了运动合成效果。此方法能够显著改善模型对运动的理解与生成,在多个基准测试上展示了优越的运动动态表现和高视觉质量。