Jan, 2023

GLIGEN:开放集合的文本到图像生成

TL;DRGLIGEN是一种基于预训练的文本到图像扩散模型,通过引入语境输入,扩展了现有的文本到图像扩散模型,通过一种门控机制将语境信息注入到新的可训练层中,从而实现了基于语境生成图像,其在COCO和LVIS上的零样本性能大大优于现有的有监督布局到图像基准线。