MagicLens：自我监督图像检索与开放式指令

Mar, 2024

MagicLens：自我监督图像检索与开放式指令

MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

Kai Zhang, Yi Luan, Hexiang Hu, Kenton Lee, Siyuan Qiao...

TL;DR利用文本指令和多模态模型实现自我监督图像检索，能够检索到具有丰富关系的图像，超过了先前最先进的方法，并且模型体积更小，同时支持多样的搜索意图。

Abstract

image retrieval, i.e., finding desired images given a reference image, inherently encompasses rich, multi-faceted search intents that are difficult to capture solely using image-based measures. Recent work leverages text instructions to allow users to more freely express their search i

image retrieval text instructions self-supervised models implicit relations multimodal models

发现论文，激发创造

通过多模态大规模语言模型引导基于指导的图像编辑

通过多模态大语言模型（MLLMs）的指导，MLLM-Guided Image Editing（MGIE）学习能够提供表达性指令和明确引导的图像编辑模型，其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明，表达性指令对基于指令的图像编辑至关重要，而我们的 MGIE 在保持有竞争力的推理效率的同时，能够显著改善自动度量和人类评估。

Sep, 2023

MAGIC: 多模态关系图对抗推理，用于不同和不配对的基于文本的图像标题

研究了如何利用 unpaired training paradigm 生成多样化的文字图像描述，提出了 Multimodal relAtional Graph adversarIal inferenCe (MAGIC) 框架，并使用一种级联生成对抗网络从 multimodal graphs 中推断出相关联的多样化图像描述。

Dec, 2021

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

L-MAGIC: 具有连贯性的语言模型辅助图像生成

基于大型语言模型的 L-MAGIC 方法能够生成全景场景，提高了场景布局和视角渲染质量，并且通过超分辨率和多视角融合技术进一步增强输出质量。

Jun, 2024

Pix2Pix-OnTheFly：借助 LLMs 实现指导图像编辑

该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注，其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法，通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑，该方法在 MAGICBRUSH 数据集上表现出色，优于最新的先进模型。

Mar, 2024

MM-Instruct: 大型多模态模型对齐的生成视觉指令

该研究介绍了 MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。

Jun, 2024

语言模型的视野：在文本生成中插入视觉控制

本研究提出了一个名为 MAGIC 的无需训练的框架，它能够将视觉控制插入文本生成过程中，并使 LM 在零样本情况下执行多模态任务，如图像字幕生成。在零样本图像字幕生成方面，MAGIC 在几乎 27 倍的解码加速度下，极大地超越了现有的最先进方法。

May, 2022

学习忠实地遵循以物体为中心的图像编辑指令

自然语言指令与图像编辑相结合，通过改进的数据增加监督信号，使模型能够优于最先进的基线技术，在细粒度物体中心编辑方面取得了显著的改进，同时还能推广到训练过程中未见过的领域。

Oct, 2023

SmartEdit: 利用多模型大型语言模型探索基于复杂指令的图像编辑

SmartEdit 是一种基于指令的图像编辑方法，利用多模态大型语言模型（MLLMS）增强理解和推理能力，并通过双向交互模块实现输入图像和 MLLM 输出之间的综合双向信息交互，从而实现更复杂指令下的图像编辑。通过新构建的 Reason-Edit 评估数据集，定量和定性结果表明 SmartEdit 优于先前的方法，为复杂指令 - based 图像编辑的实际应用铺平了道路。

Dec, 2023

MagicBrush: 一个手动注释的数据集用于指导图像编辑

MagicBrush 是第一个大规模手动注释的指令引导真实图像编辑数据集，包括单回合、多回合、提供掩码和自由掩码编辑等多种场景，通过 MagicBrush fine-tune InstructPix2Pix 模型并进行了人类评价，结果展示出了我们的数据集的挑战性以及当前算法与真实世界编辑需求之间的差距。

Jun, 2023