语言引导的局部渗透用于交互式图像检索
基于 T2I 扩散模型,本研究提出了一种局部感知反演(LocInv)方法,通过利用分割地图或边界框作为额外的定位先验,精确修正扩散过程中的交互关注图,使其与文本提示中的正确名词和形容词单词紧密对齐,从而实现对特定对象的细粒度图像编辑,并防止对其他区域产生不希望的改变。该方法在 COCO 数据集的子集上经过广泛评估,定量和定性地都取得了优秀的结果。
May, 2024
该论文主要关注互动式文本图像检索任务中对话形式的上下文查询问题。PlugIR 方法利用 LLMs 的一般指令遵循能力以两种方式解决了这个问题。该方法不仅提出了一种新颖的评估指标 BRI,还展示了在各种基准测试中优于零射击和微调基准线的优越性能。
Jun, 2024
我们提出了一种互动式图像检索系统,结合了视觉语言模型和大型语言模型,通过用户反馈迭代改进查询,并利用无噪声的查询扩展提高检索准确性,在评估中获得了 10% 的召回率改善。
Apr, 2024
使用 Reverse Image Retrieval(RIR)辅助生成的简单而有效的策略,对于 GPT-4 系列等最先进的多模态大型语言模型(MLLM)来说,RIR 显著提高了知识密集型的视觉问答性能,通过开放式 VQA 评估指标,GPT-4V 提高 37-43%,GPT-4 Turbo 提高 25-27%,GPT-4o 提高 18-20%。
May, 2024
通过多模态大语言模型(MLLMs)的指导,MLLM-Guided Image Editing(MGIE)学习能够提供表达性指令和明确引导的图像编辑模型,其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明,表达性指令对基于指令的图像编辑至关重要,而我们的 MGIE 在保持有竞争力的推理效率的同时,能够显著改善自动度量和人类评估。
Sep, 2023
提出了一种新的学习方法 iEdit,用于文本引导的图像编辑,包括数据集的自动构建、无监督损失函数和分割掩模引导编辑。该模型在 200K 个样本的数据集上进行训练,并在图像保真度、CLIP 对齐性得分和编辑生成和真实图像方面显示出优越的结果。
May, 2023
借助图像到图像扩散模型和文本引导,本文提出了一种名为 “定位与遗忘”(LaF)的新方法,通过比较目标提示的句法树和输入图像中的场景描述,有效地定位图像中需要修改的潜在目标概念,并在生成的图像中消除其存在的线索,从而在定性和定量方面表现出在文本引导图像编辑任务中的卓越性能。
May, 2024
该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注,其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法,通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑,该方法在 MAGICBRUSH 数据集上表现出色,优于最新的先进模型。
Mar, 2024
研究中,我们提出了一个统一框架,以多模态大型语言模型(MLLMs)为背景,探索了文本到图像生成和检索之间的关系,并引入了一种生成检索方法,在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估,并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验,证明了我们提出方法的优越性和效果。
Jun, 2024
该研究提出了一种基于文本到操作的模型,用于将编辑语言请求转换为一系列可解释且可区分的编辑操作,同时提出了一种操作规划算法以生成从目标图像中的伪地面真实性中可能的编辑序列。
Jun, 2021