Jun, 2024

稳定姿态:利用变形金刚进行姿态引导的文本到图像生成

TL;DR通过引入粗糙到精细的注意掩蔽策略到视觉Transformer(ViT)中,我们提出了一个新的适配器模型Stable-Pose,以在生成图像时获得准确的姿势指导,并通过层级方式从粗糙到精细的过渡来提供一种对齐姿势表示的优化方式。