大规模图像和视频的通用对象基础模型

Dec, 2023

大规模图像和视频的通用对象基础模型

General Object Foundation Model for Images and Videos at Scale

Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai...

TL;DR本研究提出了 GLEE，这是一个用于定位和识别图像和视频中对象的对象级基础模型。通过一个统一的框架，GLEE 在各种对象感知任务的开放世界场景中完成了检测、分割、跟踪、定位和识别任意对象的工作。它通过强大的学习策略从多样的数据源获得知识，构建了普适的对象表示，具有出色的零样本迁移和通用性能。此外，GLEE 还可作为大型语言模型的一部分，为多模态任务提供通用的对象级信息。

Abstract

We present glee in this work, an object-level foundation model for locating and identifying objects in images and videos. Through a unified framework, →

glee object-level foundation model object perception tasks zero-shot transfer visual foundation models

发现论文，激发创造

GLaMM: 像素 grounding 大规模多模态模型

GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型，在图像和文本领域中以不同粒度的方式与模型进行交互，同时通过 GLaMM，还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。

Nov, 2023

VideoGLUE: 视频通用理解基础模型评估

通过使用三种典型任务、八个备受社区欢迎的数据集和四种适配方法评估现有基础模型在视频理解方面的能力，并提出了一种衡量基础模型在适应一般视频理解任务时的有效性和效率的 VideoGLUE 分数 (VGS)。研究发现，与自然语言和图像理解中的基础模型成就形成鲜明对比，专门任务模型在本文所研究的六个基础模型中表现出显著的优势；包含视频模态的本机视频基础模型在分类富有动态的视频、时间定位动作和理解多个动作的视频方面通常表现更好；本机视频基础模型在轻微适配下（如冻结 FM 骨干）可以在视频任务上表现良好，而图像本机基础模型则在全面端到端的微调中胜出。前两项观察结果揭示了在视频基础模型方面进行研究的需求和巨大机遇，最后一项结果确认了在评估基础模型时任务和适配方法均起到重要作用。

Jul, 2023

OmniGlue: 基于基础模型引导的通用特征匹配

OmniGlue 是第一个以广义化为核心原则设计的可学习图像匹配器，它利用视觉基础模型的广泛知识来指导特征匹配过程，提高对未知图像域的泛化能力，并且通过引入新颖的关键点位置引导的注意机制，分离空间和外观信息，从而实现了出色的匹配描述符。

May, 2024

GroundVLP：从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位

通过现有的图像 - 文本配对模型和纯物体检测数据，我们提出了一种名为 GroundVLP 的简单而有效的零样本方法，该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案，用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战，实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28％，并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。

Dec, 2023

从互联网视频中学习通用图像匹配器的方法

提出了 GIM：一个基于互联网视频的自我训练框架，通过结合标准领域特定数据集和互补匹配方法，在新的视频中创建密集标签，并通过强化增强的传播数据来训练单一通用模型，能够提高跨领域图像匹配的零样本性能。同时，引入了 ZEB 作为图像匹配的首个零样本评估基准。

Feb, 2024

Elysium：透过 MLLM 探索视频中的物体层次感知

通过在大型视频数据集上进行大规模预训练，我们提出了一种全新的多模态大型语言模型（MLLM），名为 Elysium，该模型可以在视频中进行物体级任务，而无需任何其他插件或专家模型。

Mar, 2024

越少越好：基于基础模型的零样本局部场景图生成

通过 ELEGANT 框架，利用视觉感知、场景图生成和认知能力，提出了局部场景图生成的新任务，并通过与基础模型之间的协作和信息传递实现了零样本的局部场景图生成，从而展示了其强大的推理能力。

Oct, 2023

基于图像的语言预训练

本文提出了一种基于图像和语言语境的预训练 (GLIP) 模型，它可以同时学习目标检测和短语 grounding 任务以提升自身性能，并利用海量的图像文本对进行自我训练，从而获得语义丰富的表示。实验结果表明，GLIP 的表示具有较强的零样本迁移能力和准确性，可在各种目标识别任务上实现最先进的结果。

Dec, 2021

GLIPv2: 统一定位和视觉语言理解

GLIPv2 是一个基于视觉语言的预训练模型，将定位预训练与语言视觉预训练相结合，并具有短语地基、区域 - 单词对比学习和遮蔽语言建模三个预训练任务。该模型在各种定位和理解任务上表现接近最好的水平，同时也显示了强的零件和少量样本识别性能，以及优异的理解能力。

Jun, 2022

OLIVE：物体级别的上下文视觉嵌入

通过在上下文中引入视觉对象向量，我们提出了一种新的方法来引导大型语言模型，从而实现可控的对象级推理，消除了融合冗长图像区块特征的必要性，显著加速了训练。此外，我们还提出了使用对象表示进行区域级检索的方法，便于快速适应新对象而无需额外训练。我们的实验证明，我们的方法在参考对象分类和字幕生成性能上达到了竞争力，并提供了零样本泛化和对视觉上具有挑战性的情境的稳健性。

Jun, 2024