Dec, 2023

SmartEdit: 利用多模型大型语言模型探索基于复杂指令的图像编辑

TL;DRSmartEdit 是一种基于指令的图像编辑方法,利用多模态大型语言模型(MLLMS)增强理解和推理能力,并通过双向交互模块实现输入图像和 MLLM 输出之间的综合双向信息交互,从而实现更复杂指令下的图像编辑。通过新构建的 Reason-Edit 评估数据集,定量和定性结果表明 SmartEdit 优于先前的方法,为复杂指令 - based 图像编辑的实际应用铺平了道路。