指令引导下的视觉遮罩化

May, 2024

Instruction-Guided Visual Masking

Jinliang Zheng, Jianxiong Li, Sijie Cheng, Yinan Zheng, Jiaming Li...

TL;DR通过引入指导型视觉遮罩（IVM）来改进多模式指令跟踪，本研究在多模式设置下证明了 IVM 的适用性，并显示出在图像与指令之间进行准确的视觉对齐的优势。通过构建视觉遮罩，IVM 增强的多模式模型能够更好地关注与任务相关的图像区域，从而取得更好的指令跟踪表现。实验结果表明，IVM 作为一种即插即用工具，显著提升了多样化的多模式模型性能，在各种复杂多模式基准上取得了新的最佳结果。

Abstract

instruction following is crucial in contemporary LLM. However, when extended to multimodal setting, it often suffers from misalignment between specific textual instruction and targeted local region of an image. T

instruction following multimodal setting visual masking ivm multimodal models

发现论文，激发创造

iWISDM: 在大规模的多模态模型中评估指令遵循

通过 iWISDM 环境，我们编制了三个不同复杂度的指令跟踪视觉任务基准，并评估了几种新开发的多模态模型，结果显示多模态模型的指令遵循能力与人类存在较大差距。

Jun, 2024

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

VIM：用于视觉嵌入式指令跟随的多模态大语言模型探测

我们介绍了 VISUAL EMBEDDED INSTRUCTION (VIM)，这是一个新的框架，旨在评估多模态大语言模型 (MLLMs) 在视觉指令跟随能力方面的表现。通过将指令嵌入到视觉场景中，VIM 对 MLLMs 提出挑战，对指令跟随需要强大的视觉解释能力。我们将 VIM 应用于不同的基准测试，包括 VQAv2、MME、MM-Vet 和 RefCOCO 系列，并通过三个不同的上下文学习设置：零次尝试、一次尝试和对应尝试，探索不同的 MLLMs。我们观察到，开源的 MLLMs 与 GPT-4V 之间存在显著的性能差异，这意味着它们在视觉指令理解方面的熟练程度还不够好。我们的结果突出了提高 MLLMs 在指令跟随方面能力的有希望方向。我们的目标是通过 VIM 作为一个有用的规范来推动该领域的最新技术进展和推动进一步的发展。

Nov, 2023

赋能视觉语言模型来遵循交替视觉语言指令

综合评估了多模态大型语言模型的指导遵循能力，并引入了 I4 基准测试，提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah，达到了 I4 中所有任务的零样本表现的最新水平，并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。

Aug, 2023

通过多模态大规模语言模型引导基于指导的图像编辑

通过多模态大语言模型（MLLMs）的指导，MLLM-Guided Image Editing（MGIE）学习能够提供表达性指令和明确引导的图像编辑模型，其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明，表达性指令对基于指令的图像编辑至关重要，而我们的 MGIE 在保持有竞争力的推理效率的同时，能够显著改善自动度量和人类评估。

Sep, 2023

超越图像 - 文本匹配：多模态变换器中使用引导掩模进行动词理解

本研究提出了一种指导掩蔽的探测方法，评估最近的多模态图像语言变形器模型的学习表示能力，重点研究考虑感兴趣区域（ROI）特征作为输入标记的多模态模型，通过指导掩蔽分析动词的理解能力，在 ViLBERT、LXMERT、UNITER 和 VisualBERT 模型中，我们展示出这些模型能够以高准确度预测正确的动词。

Jan, 2024

使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究

本文系统研究了遮蔽视觉建模（MVM）在视频 - 语言（VidL）预训练中的应用，基于全面的端到端 VIdeO-LanguagE 变换器（VIOLET），提出了 8 种不同的 MVM 重构目标，从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明，使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。

Sep, 2022

大规模多模型对齐与鲁棒指令调整

通过引入大规模的视觉指导优化数据集 LRV-Instruction 以及使用 GPT4 辅助视觉指导评估方法（GAVIE）来评估 LMMs 的视觉指导优化，本研究探究了 LMMs 的幻觉问题，并成功地缓解了幻觉并提高了该模型的性能。

Jun, 2023

多模态大语言模型的位置增强视觉指令调整

通过引入区域级别的视觉编码器，本文提出了一种增强图像教学调整功能的多模态大型语言模型（MLLMs），以实现更细粒度的模态交叉对齐，并设计了多种数据生成策略构建了图像 - 区域 - 语言指令数据集，实验结果表明该模型的卓越性能。

Aug, 2023