Uni-NLX: 统一视觉和视觉语言任务的文本解释

ICCVAug, 2023

Uni-NLX: 统一视觉和视觉语言任务的文本解释

Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language Tasks

Fawaz Sammani, Nikos Deligiannis

TL;DR提出了 Uni-NLX，一个统一的框架，将所有自然语言解释任务整合到一个紧凑的多任务模型中，使用文本生成的统一训练目标。引入了两个新的 NLE 数据集：ImageNetX，一个包含 144K 个样本的数据集，用于解释 ImageNet 分类；VQA-ParaX，一个包含 123K 个样本的数据集，用于解释视觉问答（VQA）任务。通过训练这 1M 个组合的 NLE 样本，在参数数量减少 7 倍的情况下，我们的统一框架能够同时执行七个 NLE 任务，包括 VQA、视觉识别和视觉推理任务，在某些任务中甚至表现出色于以前方法中的独立任务特定模型。

Abstract

natural language explanations (NLE) aim at supplementing the prediction of a model with human-friendly natural text. Existing NLE approaches involve training separate models for each downstream task. In this work, we propose →

natural language explanations uni-nlx multi-task model nle datasets large language models

发现论文，激发创造

NLX-GPT：用于图像和视觉语言任务的自然语言解释模型

NLX-GPT 是一个同时能够预测并解释结果的通用、紧凑且准确的自然语言解释模型，能更好地评估困难数据和无标签的交互式自评估攻击。

Mar, 2022

e-ViL: 视觉语言任务中自然语言解释的数据集和基准测试

本研究介绍了 e-ViL 和 e-SNLI-VE 为可解释的视觉语言任务建立了一个统一的评估框架。该任务旨在生成自然语言解释，并涉及四个模型和三个数据集。研究人员还提出了一种新模型，该模型结合了 UNITER 和 GPT-2，对所有数据集的现有技术水平取得了很大的突破。

May, 2021

利用多任务预训练技术，提升基础自然语言解释能力

通过应用大规模多任务生成 Transformer 模型的最新进展，我们提出了一种新的 VL-NLE 方法，其提供人类更容易理解的解释，并优于当前技术水平。同时，我们还探讨了高质量 NLE 生成的伦理影响和其他最近 VL-NLE 研究中存在的问题。

Dec, 2022

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

LIREx：使用相关解释增强语言推理

本文提出了一种新的框架 LIREx，该框架包含一个基于原因的解释生成器和一个实例选择器，用于选择只与 NLI 模型相关的合理 NLEs。该框架在 SNLI 数据集上达到了 91.87％的准确度，并在多领域数据集上实现了显著提高的性能。

Dec, 2020

UniFine: 一种用于零样本视觉 - 语言理解的统一和细粒度方法

本文提出了一个统一的框架，以利用精细的信息实现零样本视觉语言学习，涵盖了多个任务，如视觉问题回答，SNLI-VE 和 VCR，并证实了该方法的有效性和泛化性。

Jul, 2023

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022