Thao Nguyen, Yuheng Li, Utkarsh Ojha, Yong Jae Lee
TL;DR通过视觉提示的图像编辑方法可以实现具有竞争力的成果。
Abstract
text-conditioned image editing has emerged as a powerful tool for editing
images. However, in many situations, language can be ambiguous and ineffective
in describing specific image edits. When faced with such challenges, visual
prompts can be a more informative and intuitive way to co
该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注,其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法,通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑,该方法在 MAGICBRUSH 数据集上表现出色,优于最新的先进模型。