CoIE:面部多属性操作的指令链编辑
改进大型语言模型的细化调整方法,通过使用多样的组合指令集合,提高了模型对不同任务的泛化性能;引入了链式指令的新概念(CoI),使模型能够处理由多个子任务组成的复合指令,将模型性能在多语言摘要生成任务中进行了验证。
Feb, 2024
通过多模态大语言模型(MLLMs)的指导,MLLM-Guided Image Editing(MGIE)学习能够提供表达性指令和明确引导的图像编辑模型,其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明,表达性指令对基于指令的图像编辑至关重要,而我们的 MGIE 在保持有竞争力的推理效率的同时,能够显著改善自动度量和人类评估。
Sep, 2023
我们提出了一种创新的图像编辑框架,利用多模式大语言模型(LLMs)的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。
May, 2024
自然语言指令与图像编辑相结合,通过改进的数据增加监督信号,使模型能够优于最先进的基线技术,在细粒度物体中心编辑方面取得了显著的改进,同时还能推广到训练过程中未见过的领域。
Oct, 2023
基于扩散模型的文字引导图像生成在开放领域图像处理任务中取得了令人惊讶的进展,本研究提出了一种混合专家控制器的方法,以将不同类型的人类指令与不同的扩散模型的文字引导能力相结合,实现对各种开放领域图像处理任务的处理。
Sep, 2023
SmartEdit 是一种基于指令的图像编辑方法,利用多模态大型语言模型(MLLMS)增强理解和推理能力,并通过双向交互模块实现输入图像和 MLLM 输出之间的综合双向信息交互,从而实现更复杂指令下的图像编辑。通过新构建的 Reason-Edit 评估数据集,定量和定性结果表明 SmartEdit 优于先前的方法,为复杂指令 - based 图像编辑的实际应用铺平了道路。
Dec, 2023
一个新的图像编辑框架,通过增强上下文学习能力和统一语言指导以提高泛化鲁棒性,利用 VMamba Block 和编辑偏移匹配策略来增强图像编辑任务的能力,并结合选择性区域匹配技术和语言统一技术来改善生成图像的质量,同时提供第一个利用视觉提示和编辑指导的图像编辑数据集来提高上下文能力。
Mar, 2024
本论文提出了一种新的文本引导时尚图片编辑方法 FICE,包括 GAN 反演、CLIP 模型语义信息和姿态、图片评估等多项约束,使其能够更好地控制图像合成的逼真程度,并与多种先进方法进行对比验证,结果表明 FICE 具有更强的编辑表现和高度逼真的时尚图像生成能力。
Jan, 2023
通过使用连锁图像方法,将复杂的语言推理问题转化为简单的模式识别,并引入一种符号化的多模态大型语言模型,该模型可以根据语言指令生成图像并接受文本和图像作为输入,实验结果表明连锁图像方法显著提高了在几何学、国际象棋和常识任务上的性能。
Nov, 2023
基于 Zero-shot 指令引导的局部图像编辑方法 ZONE 通过转换用户提供的指令,实现了对特定图像区域的任意操作,同时保留其他区域的编辑友好性,展现了出色的局部编辑效果,优于现有的最先进方法。
Dec, 2023