我们是否正确地进行预训练？更深入地挖掘视觉语言预训练

Apr, 2020

我们是否正确地进行预训练？更深入地挖掘视觉语言预训练

Are we pretraining it right? Digging deeper into visio-linguistic pretraining

Amanpreet Singh, Vedanuj Goswami, Devi Parikh

TL;DR该研究在研究预训练数据集的选择时发现，与下游任务相似的自动生成数据集是预训练的更好选择，而某些合理的预训练数据集对某些下游任务完全无效，这表明视听语言预训练仍需要简单的设计选择来实现接近最新成果的结果。

Abstract

Numerous recent works have proposed pretraining generic visio-linguistic representations and then finetuning them for downstream vision and language tasks. While architecture and objective function design choices have received attention, the choice of →

pretraining visio-linguistic representations downstream tasks dataset domain performance

发现论文，激发创造

视觉与语言预训练

本篇研究综述了当下 Vision-and-Language 领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

DeVLBert：学习去混淆视觉语言表征

本文提出了 Deconfounded Visio-Linguistic Bert 框架，解决了视觉语言预训练中的跨域问题，并通过干预学习减轻数据集偏差，从而提高了模型的泛化能力。

Aug, 2020

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

异曲同工：探究多样化对话任务的适切预训练方法

研究发现，为了适应特定领域的无标签数据，引入进一步的预训练阶段可以带来积极影响，不同的下游任务需要适当的先前任务作为进一步的预训练任务来弥合任务公式差距，并针对多个任务导向的对话下游任务设计各种任务以提高其性能。

Sep, 2021

预训练语言模型的可迁移性研究：来自人工数据集的探讨

本文研究了预先训练语言模型在下游任务中表现卓越的特定特质，包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明，在预先训练数据的明确依赖关系中加入后，模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练，只要其能够模拟序列中的令牌依赖关系，仍然可以在某些语言任务中获得迁移能力。

Sep, 2021

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

下游数据集出人意料地成为良好的预训练语料库

本文介绍了一个大规模的自我训练研究，其中使用相同的（下游）训练数据进行预训练和微调，并且观察到自我预训练可以与标准预训练相媲美，这表明在许多情况下，预训练性能增益主要受预训练目标本身的驱动，而不一定是庞大数据集的影响。

Sep, 2022

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型 (VLPM) 的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

CAVL：学习视觉与语言的对比和自适应表征

本研究主要探讨了视觉与语言的联合预训练，提出了一种名为 CAVL 的视觉和语言的对比和自适应表示简单有效的方法。在下游任务中，我们将其应用于包括 VQA，VCR，NLVR，RPG，TIR 和 ZS-TIR 在内的六项主要任务中，并与基准模型进行比较，结果表明我们的方法具有明显的优势。

Apr, 2023