Sep, 2023

通过多模态大规模语言模型引导基于指导的图像编辑

TL;DR通过多模态大语言模型(MLLMs)的指导,MLLM-Guided Image Editing(MGIE)学习能够提供表达性指令和明确引导的图像编辑模型,其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明,表达性指令对基于指令的图像编辑至关重要,而我们的 MGIE 在保持有竞争力的推理效率的同时,能够显著改善自动度量和人类评估。