视觉-语言预训练模型综述
本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验,分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言BERT的差异进行经验研究,揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因,同时将两类网络统一在同一理论框架之下,指出embedding layer在这些模型中具有至关重要的作用。
Nov, 2020
本文调查了最近关于视觉-语言预训练 (VLP) 的进展和新前沿。这是第一篇关注VLP的综述文章,并对VLP模型做了具体总结,旨在为VLP领域的未来研究提供启示。
Feb, 2022
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
为了找到最好的方法来将视觉和语言(VL)多模态预训练模型适应于仅文本输入,我们研究并比较了适应VL模型到文本输入的七种可能的方法。我们的评估结果表明,对于零样本文本-only任务,VL模型需要小心适应,而对于非零样本任务,模型对适应方法不敏感。我们还发现,对于不同的模型,适应方法的表现各不相同,而单模态模型趋同于VL模型,提示当前的VL模型不一定从其多模态训练中获得更好的语言理解。
Sep, 2022
本文研究多模态智能领域的视觉-语言预训练方法,分为三类分类,包含图像-文本、核心计算机视觉和视频-文本任务,针对每类任务,提出了针对性的方法,分别探究了研究进展和存在的挑战并讨论了更先进的主题。
Oct, 2022
VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024