CVPRNov, 2021

自然图像文本编辑的混合扩散

TL;DR本文介绍了一种基于自然语言描述和兴趣区域掩码进行本地(面向区域的)在通用自然图像中进行编辑的解决方案,利用 CLIP 预训练语言 - 图像模型指导编辑并使用扩散概率模型生成自然外观结果,以及应用扩散过程的增强进行抗击对抗攻击;通过在多个基线和相关方法上的定量和定性比较,表明该方法在整体逼真度、保护背景和匹配文本方面均优于现有解决方案,并展示了多种文本驱动的编辑应用,如添加新对象,删除 / 替换 / 修改现有对象,背景替换和图像推理。