ICCVAug, 2023

Uni-NLX: 统一视觉和视觉语言任务的文本解释

TL;DR提出了 Uni-NLX,一个统一的框架,将所有自然语言解释任务整合到一个紧凑的多任务模型中,使用文本生成的统一训练目标。引入了两个新的 NLE 数据集:ImageNetX,一个包含 144K 个样本的数据集,用于解释 ImageNet 分类;VQA-ParaX,一个包含 123K 个样本的数据集,用于解释视觉问答(VQA)任务。通过训练这 1M 个组合的 NLE 样本,在参数数量减少 7 倍的情况下,我们的统一框架能够同时执行七个 NLE 任务,包括 VQA、视觉识别和视觉推理任务,在某些任务中甚至表现出色于以前方法中的独立任务特定模型。