Aug, 2024

FlexEdit:将自由形状掩膜与VLLM结合实现灵活的图像编辑

TL;DR本研究解决了用户通过语言指令进行图像编辑时,指令往往难以准确传达需求的问题。提出的FlexEdit方法结合自由形状掩膜与语言指令,通过Mask Enhance Adapter(MEA)实现了掩膜信息与模型输出的无缝融合。实验结果表明,该方法在基于大型语言模型的图像编辑中达到当前最优性能,并且其简单的提示技术效果明显。