Jun, 2024
稳定姿态:利用变形金刚进行姿态引导的文本到图像生成
Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation
Jiajun Wang, Morteza Ghahremani, Yitong Li, Björn Ommer, Christian Wachinger
TL;DR通过引入粗糙到精细的注意掩蔽策略到视觉 Transformer (ViT) 中,我们提出了一个新的适配器模型 Stable-Pose,以在生成图像时获得准确的姿势指导,并通过层级方式从粗糙到精细的过渡来提供一种对齐姿势表示的优化方式。