使用预训练方法改善视觉语言模型的地理包容性

Jan, 2023

使用预训练方法改善视觉语言模型的地理包容性

GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods

Da Yin, Feng Gao, Govind Thattai, Michael Johnston, Kai-Wei Chang

TL;DR提出了 Geographically Inclusive Vision-and-Language Pre-trained model（GIVL）的概念。GIVL 是一种视觉语言预训练模型，利用图像知识匹配（IKM）和图像编辑检查（IEC）两种新的预训练目标。与以类似数据规模预先培训的类似规模模型相比，GIVL 在地理多元化的视觉语言任务上表现出更好的性能平衡和最新技术水平（SOTA）。

Abstract

A key goal for the advancement of ai is to develop technologies that serve the needs not just of one group but of all communities regardless of their geographical region. In fact, a significant proportion of know

ai geographical region cultural differences givl v&l tasks

发现论文，激发创造

GLIPv2: 统一定位和视觉语言理解

GLIPv2 是一个基于视觉语言的预训练模型，将定位预训练与语言视觉预训练相结合，并具有短语地基、区域 - 单词对比学习和遮蔽语言建模三个预训练任务。该模型在各种定位和理解任务上表现接近最好的水平，同时也显示了强的零件和少量样本识别性能，以及优异的理解能力。

Jun, 2022

视觉与语言预训练

本篇研究综述了当下 Vision-and-Language 领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

检索式知识增强视觉语言预训练

该篇论文提出了一种基于知识图谱的视觉语言预训练模型 (REAVL)，能够检索多模态数据中的世界知识，并结合多模态数据和知识来完成预训练，以提高视觉语言理解和多模态实体链接任务的性能。

Apr, 2023

无过滤器：对比式视觉语言模型中的文化和社会经济多样性

该研究探讨了视觉 - 语言模型中的文化和社会经济多样性，研究发现了数据训练过程中对低社会经济地位社群和文化理解的不公平现象，并提出了一种改进方法以提高文化多样性。

May, 2024

在视觉 - 语言模型中实现交互式区域理解

通过引入具有明确区域建模能力的 RegionVLM 模型，并利用包含区域信息的 Localized Narratives 数据集，我们的实验表明，我们的单一通用模型不仅实现了交互式对话系统，还在各种零样本区域理解任务上展现出了卓越的性能，而不会损害其对全局图像的理解能力。

Mar, 2024

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

从地方概念到普适性：评估视觉语言模型的多元文化理解

通过引入 GlobalRG 基准，涵盖了检索跨文化图像的普遍概念和在图像中定位文化特定概念这两个具有挑战性的任务，我们评估了各种模型在不同文化背景下的表现，并强调了在视觉语言模型中增强多元文化理解的必要性。

Jun, 2024

CAVL：学习视觉与语言的对比和自适应表征

本研究主要探讨了视觉与语言的联合预训练，提出了一种名为 CAVL 的视觉和语言的对比和自适应表示简单有效的方法。在下游任务中，我们将其应用于包括 VQA，VCR，NLVR，RPG，TIR 和 ZS-TIR 在内的六项主要任务中，并与基准模型进行比较，结果表明我们的方法具有明显的优势。

Apr, 2023

ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

通过系统评估，本研究首次证明了在训练数据的两两复杂性增加时，标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题，为了解决这个问题，研究引入了 ViLLA，通过两个组件（自监督映射模型和对比视觉语言模型）来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系，实验证明 ViLLA 在细粒度推理任务（如零样本目标检测和检索）上表现优于其他视觉语言模型。

Aug, 2023

RC3：正则化对比交叉语言交叉模态预训练

该研究提出了 RC^3 pre-training 方法，该方法利用弱对齐的多语言图像 - 文本对进行跨语言、跨模态的视觉 - 语言预训练，并在下游的多模态任务中表现出更强的效果。

May, 2023