通过文本生成统一视觉语言任务
本篇文章通过开发一个大规模、多任务训练体系,研究了不同任务之间的相互关系,提出了一个单一模型,可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下,同时取得以往 3 亿多参数内单一任务模型的总和,且性能提高了 2.05 个百分点,并进一步表明,从单一多任务模型微调任务特定模型会进一步提高性能。
Dec, 2019
本文研究了图片到文本和文本到图片生成的联合学习,使用了基于 Transformer 的单个多模式模型来统一学习双向任务,并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架,实验证明,该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID(37.0→29.9)和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分(100.9%→122.6%)。
Oct, 2021
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
探索多模态模型在联合图像和文本生成任务中的表现,并发现单一模型类型不能通用地在所有任务、数据集和微调数据大小上表现最佳,加深了对从图像和文本生成超越图像字幕的新型通用骨干方法的需求。
May, 2022
本文提出了一个统一的视觉语言预训练模型,采用共享的多层 Transformer 网络进行编码和解码,通过两个任务的无监督学习目标对大量的图像文本对进行预训练,使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。
Sep, 2019
本论文提出了一种名为 DU-VLG 的框架,该框架将视觉和语言生成视为序列生成问题,并通过双向生成,利用对图像和文本的成对处理。采用多模态降噪自编码器任务和模态翻译任务进行双重预训练,并设计了一种新的承诺损失方法,以提高图像生成的质量。研究结果表明,与采用单向生成目标或不使用承诺损失的变体相比,DU-VLG 在图像字幕和文本到图像生成数据集上的性能更好,并在三个视觉和语言生成任务中获得了比以前的最先进系统更高的得分。此外,人类评测员进一步确认我们的模型生成了真实相关的图像并带有忠实和有信息的说明。
Mar, 2022
提出了 Uni-NLX,一个统一的框架,将所有自然语言解释任务整合到一个紧凑的多任务模型中,使用文本生成的统一训练目标。引入了两个新的 NLE 数据集:ImageNetX,一个包含 144K 个样本的数据集,用于解释 ImageNet 分类;VQA-ParaX,一个包含 123K 个样本的数据集,用于解释视觉问答(VQA)任务。通过训练这 1M 个组合的 NLE 样本,在参数数量减少 7 倍的情况下,我们的统一框架能够同时执行七个 NLE 任务,包括 VQA、视觉识别和视觉推理任务,在某些任务中甚至表现出色于以前方法中的独立任务特定模型。
Aug, 2023
该研究提出了一种多任务学习的方法,将来自各种不同数据集的任务共享视觉语言表示。结果表明该方法在图像字幕检索、视觉问答和视觉定位方面比先前的单任务学习方法表现更好,同时通过可视化注意力图分析了学习到的分层表示。
Dec, 2018
通过提出创新的评估方法并修正现有的视觉问答基准,我们的研究旨在推进我们对文本生成视觉语言模型能力的理解,提出了一种基于著名视觉分类数据集的新型视觉问答基准,可以对文本生成视觉语言模型进行细粒度评估,并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究,基于这项研究,我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型,并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础,促进了视觉语言建模领域的有针对性进展。
Feb, 2024
新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论,最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。
May, 2020