Jun, 2024

稳定姿态:利用变形金刚进行姿态引导的文本到图像生成

TL;DR通过引入粗糙到精细的注意掩蔽策略到视觉 Transformer (ViT) 中,我们提出了一个新的适配器模型 Stable-Pose,以在生成图像时获得准确的姿势指导,并通过层级方式从粗糙到精细的过渡来提供一种对齐姿势表示的优化方式。