UMG-CLIP: 一个统一的多粒度视觉通才用于开放世界理解

Jan, 2024

UMG-CLIP: 一个统一的多粒度视觉通才用于开放世界理解

UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding

Bowen Shi, Peisen Zhao, Zichen Wang, Yuhang Zhang, Yaoming Wang...

TL;DR该研究扩展了 CLIP 模型的多粒度对齐，在多个层次上构建了伪注释数据集，并开发了名为 UMG-CLIP 的统一多粒度学习框架，通过参数高效调整，实现了在各种图像理解基准测试中超越当前广泛使用的 CLIP 模型，包括开放世界识别、检索、语义分割和全景分割任务，具有最先进的性能。

Abstract

vision-language foundation models, represented by Contrastive language-image pre-training (CLIP), have gained increasing attention for jointly understanding both vision and textual tasks. However, existing approaches primarily focus on training models to match global image representati

vision-language foundation models contrastive language-image pre-training multi-granularity alignment umg-clip state-of-the-art performance

发现论文，激发创造

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

CLIP 是否是细粒度开放世界感知的主要障碍？

现代应用越来越需要适应训练过程中未遇到的新概念的灵活计算机视觉模型。本文通过对开放词汇物体识别限制的详细研究，发现了这些限制的根本原因，并试图理解是否存在于 CLIP 嵌入中的细粒度知识未能在推断时利用。我们的初步实验表明，简单的 CLIP 潜空间重新投影有助于分离细粒度概念，为开发能够处理细节的骨干网络铺平了道路。

Apr, 2024

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

Structure-CLIP: 使用结构信息增强多模态语言表示

本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP，它利用场景图实现对细粒度语义信息的关注，结合结构知识来提高多模态语言表示的表示能力，并在不同的下游任务中得到了最先进的表现。

May, 2023

HiCLIP: 基于分层感知注意力的对比语言 - 图像预训练

本文提出了用层级感知的注意力机制改进 CLIP 模型，以更好的捕捉图像和文本的高层语义，并在视觉识别和与视觉相关的下游任务中获得良好的结果。

Mar, 2023

UniFine: 一种用于零样本视觉 - 语言理解的统一和细粒度方法

本文提出了一个统一的框架，以利用精细的信息实现零样本视觉语言学习，涵盖了多个任务，如视觉问题回答，SNLI-VE 和 VCR，并证实了该方法的有效性和泛化性。

Jul, 2023

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

TagCLIP：一种增强无需训练的 CLIP 开放词汇多标签分类的本地到全局框架

通过局部到全局的框架，我们提出了一种扩展了 CLIP 的方法来提高多标签分类性能，并通过生成的标签在弱监督语义分割任务中取得了显著的性能提升。

Dec, 2023