Aug, 2023

舞动的阿凡达:基于姿势和文本引导的人体动作视频合成与图像扩散模型

TL;DR提出了一种名为 “Dancing Avatar” 的方法,通过文本和姿势驱动,利用训练良好的 T2I 扩散模型生成逐帧人体运动视频,同时保持上下文相关性、人物外观一致性和背景连续性,实现生成具有出色质量的人类视频。