Mar, 2024

扩散模型中的关系矫正

TL;DR通过改进文本编码器和使用异构图卷积网络模型 (HGCN),我们提出了一种名为关系修正的新任务,以确保大型文本到图像扩散模型能够准确表示特定的视觉关系。我们在包含关系词和反转物体顺序的提示对中进行了优化,保留了文本编码器和扩散模型的参数,从而在处理无关描述时保持了模型的稳健性,并在一个多样的关系数据集上验证了我们的方法,显示出在生成具有精确视觉关系的图像方面的定量和定性改进。