12 合 1：多任务视觉和语言表示学习

Dec, 2019

12 合 1：多任务视觉和语言表示学习

12-in-1: Multi-Task Vision and Language Representation Learning

Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, Stefan Lee

TL;DR本篇文章通过开发一个大规模、多任务训练体系，研究了不同任务之间的相互关系，提出了一个单一模型，可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下，同时取得以往 3 亿多参数内单一任务模型的总和，且性能提高了 2.05 个百分点，并进一步表明，从单一多任务模型微调任务特定模型会进一步提高性能。

Abstract

Much of vision-and-language research focuses on a small but diverse set of independent tasks and supporting datasets often studied in isolation; however, the visually-grounded language understanding skills required for success at these tasks overlap significantly. In this work, we inve

vision-and-language multi-task learning visual question answering caption-based image retrieval referring expressions

发现论文，激发创造

层次化视觉语言表示的多任务学习

该研究提出了一种多任务学习的方法，将来自各种不同数据集的任务共享视觉语言表示。结果表明该方法在图像字幕检索、视觉问答和视觉定位方面比先前的单任务学习方法表现更好，同时通过可视化注意力图分析了学习到的分层表示。

Dec, 2018

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

视觉 - 语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研，总结了三个时期的发展，包括特定任务方法，视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型，并讨论了未来的发展趋势.

Mar, 2022

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

视觉与语言预训练

本篇研究综述了当下 Vision-and-Language 领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

对齐的图像 - 词表达提高跨视觉语言任务的归纳转移能力

本文研究视觉特征的表征方式，并探讨了通过将视觉识别任务和视觉问答任务各自对应的语言表示方式建立联系，以实现更好的跨任务数据迁移的方法。结果表明，这种方法比常规的多任务学习方法更有效，并且能够大幅提高在视觉识别任务和视觉问答任务上的准确率。

Apr, 2017

语言特征的重要性：用于视觉 - 语言任务的有效语言表示

文章研究了在视觉 - 语言 (VL) 任务中如何处理语言和视觉特征，提出了一些对于语言发挥更大作用的最佳实践，包括使用平均嵌入语言模型，进行多任务训练以及采用图形导向的视觉 - 语言嵌入模型（GrOVLE）来整合语言特征。

Aug, 2019

多元化的联合视觉 - 语言标记化学习

建立跨图片和文本的联合表示是视觉问答和视频问答等任务的重要步骤。本研究发现，这些表示不仅必须同时捕捉两种模态的特征，而且还应具有多样性，以获得更好的泛化性能。为此，提出了通过多样化分词学习过程的联合视觉语言表示学习，可以学习来自两种模态的足够解开的词元。观察到我们的方法在大多数情况下优于基线模型，并且与最先进的方法竞争力强。

Jun, 2023

视觉场景理解的多任务学习

研究多任务学习在计算机视觉中的应用，通过综述现有方法，提出几种方法处理多任务学习中的重要问题，并在各种基准测试中进行评估，进一步提升了多任务学习的状态。

Mar, 2022