PEVL：基于位置增强的预训练和提示微调的视觉语言模型

EMNLPMay, 2022

PEVL：基于位置增强的预训练和提示微调的视觉语言模型

PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models

Yuan Yao, Qianyu Chen, Ao Zhang, Wei Ji, Zhiyuan Liu...

TL;DR本研究提出了一种名为 PEVL 的显式目标位置建模方法，来提高 VLP 模型在特定视觉 - 语言任务（如指称表达理解和视觉常识推理）上的性能。该方法通过将离散化目标位置与语言内容整合到一个语言建模框架中，在预训练和提示微调阶段实现显式的视觉 - 语言对齐，并为各种下游任务提供了灵活的提示微调方式。实验结果显示，PEVL 在无检测器的 VLP 模型上能够取得最先进的性能，即在特定视觉 - 语言任务上取得优异的表现，也能提高在具有定位敏感输入的任务上的性能。

Abstract

vision-language pre-training (vlp) has shown impressive performance on a wide range of cross-modal tasks, where vlp models without relianc

vision-language pre-training vlp explicit object position modeling position-sensitive tasks pevl

发现论文，激发创造

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

PiTL：基于提示的弱监督视觉语言预训练的跨模态检索

本文提出了一种利用大型语言模型从图像中生成标签以进行虚实预训练，减少了对昂贵标注数据的需求，并在图片文字检索方面得到显著的效果提升。

Jul, 2023

VLN-PETL：用于视觉语言导航的参数高效迁移学习

我们在第一次研究中探索了用于 VLN 任务的 PETL 方法，并提出了一种名为 VLN-PETL 的 VLN 特定 PETL 方法。该方法通过设计两个 PETL 模块：历史交互增强器（HIB）和跨模态交互增强器（CIB），并将其与几种现有 PETL 方法相结合，形成集成 VLN-PETL。对四个主要的 VLN 任务（R2R，REVERIE，NDH，RxR）进行的广泛实验结果表明，我们提出的 VLN-PETL 方法的有效性，它在性能上与全面微调相当甚至更好，并以有希望的优势超过其他 PETL 方法。

Aug, 2023

对齐、推理和学习：利用知识增强医疗视觉语言预训练

本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP)，通过结构化医学领域专家知识从三个方面做到了这一点，并构建了一个医学视觉和语言基准来评估此方法的有效性。

Sep, 2022

VinVL: 重访视觉表征在视觉语言模型中的应用

本文通过提出一种改进的物体检测模型，生成具有更丰富视觉对象和概念的物体中心表示，从而显着提高了视觉语言任务的性能，并在七个公共基准测试中创造了新的最先进结果。

Jan, 2021

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

视觉 - 语言预训练：基础、最新进展和未来趋势

本文研究多模态智能领域的视觉 - 语言预训练方法，分为三类分类，包含图像 - 文本、核心计算机视觉和视频 - 文本任务，针对每类任务，提出了针对性的方法，分别探究了研究进展和存在的挑战并讨论了更先进的主题。

Oct, 2022