Dec, 2023

ViscoNet:将视觉和文本条件合并与协调,用于 ControlNet

TL;DRViscoNet 是一种新颖的方法,通过视觉提示来增强文本到图像人物生成模型,使用户可以通过参考图像指定目标对象的视觉外观,从而从图像背景中分离出对象的外观,并通过 ControlNet 分支将其注入预训练的潜在扩散模型 (LDM) 模型中,从而缓解了样式模式崩溃问题并实现了精确和灵活的视觉控制。我们在人物图像生成上展示了 ViscoNet 的有效性,它能够通过文本和图像提示操控视觉属性和艺术风格,并保留了 LDM 主干的生成能力。