全景调谐：提升视角不变性的视觉语言预训练模型

Apr, 2024

全景调谐：提升视角不变性的视觉语言预训练模型

Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models

Shouwei Ruan, Yinpeng Dong, Hanqing Liu, Yao Huang, Hang Su...

TL;DR通过多视角训练数据集和架构优化，本论文成功改进了视觉语言预训练模型 (VLP) 在三维视角变化下的鲁棒性，提高了其对视角变化的不变性能力。

Abstract

vision-language pre-training (VLP) models like CLIP have achieved remarkable success in computer vision and particularly demonstrated superior robustness to distribution shifts of 2D images. However, their robustness under 3D viewpoint variations is still limited, which can hinder the

vision-language pre-training vlp models 3d viewpoint variations multi-view caption dataset omniview-tuning

发现论文，激发创造

通过对抗训练实现视角不变的视觉识别

借鉴对抗训练的成功，我们提出了 “Viewpoint-Invariant Adversarial Training（VIAT）”，通过最小化期望损失来训练一个视角不变的分类器，以提高各种图像分类器的视角鲁棒性。实验证实了 GMVFool 生成的对抗视角的多样性，验证了 VIAT 在提高视角鲁棒性方面的有效性。

Jul, 2023

通过对抗训练提升视觉识别的视点稳健性

通过使用敌对训练的方法，我们提出了一种称为 VIAT 的视角不变敌对训练方法，用于改善图像分类器的视角鲁棒性，并基于 GMVFool 提供了一个大规模数据集 ImageNet-V + 来评估视角鲁棒性。实验结果表明，VIAT 通过 GMVFool 生成的多样敌对视角显著提高了各种图像分类器的视角鲁棒性，并从理论角度提出了一种可靠的视角鲁棒性方法 ViewRS。

Jul, 2023

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

基于物体对比学习的视觉 - 语言预训练技术在三维场景理解中的应用

本文提出了一种 3D 视觉语言预训练框架 3DVLP，可以在 3D 视觉语言下游任务中有很好的表现，该框架考虑了场景中物体的关联性，提出了多个任务来实现对象级交叉对齐和区分，与任务特定方法相比具有更好的泛化性能。

May, 2023

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

视觉 - 语言预训练：基础、最新进展和未来趋势

本文研究多模态智能领域的视觉 - 语言预训练方法，分为三类分类，包含图像 - 文本、核心计算机视觉和视频 - 文本任务，针对每类任务，提出了针对性的方法，分别探究了研究进展和存在的挑战并讨论了更先进的主题。

Oct, 2022

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022