大规模预训练模型是否可帮助视觉模型完成感知任务?
该论文研究了使用Transformer模型的大规模预训练模型在图像与语言(V+L)方面的应用,通过评估和探索内部机制,提供了关于多模式预训练及其注意力头的启示和指导。
May, 2020
本文综述了视觉-语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
本文综述了预训练大型多模态模型的背景、任务定义、挑战、优势以及验证方式,并重点讨论了数据、目标、网络结构、知识增强等方面。此外,文章还给出了模型参数和结果的可视化和分析,并指出了未来的可能研究方向。
Feb, 2023
利用大型语言模型进行视觉任务,通过冻结预训练的语言模型的转换器块作为视觉令牌的编码器层,能够显著改善计算机视觉任务的性能,并提出信息过滤假设来解释预训练语言模型在视觉编码中的有效性。
Oct, 2023
本文提出了一种名为PerceptionGPT的新型端到端框架,通过利用LLMs的token嵌入的表示能力,高效有效地赋予VLLMs视觉感知能力。该方法以LLMs的token嵌入作为空间信息的携带者,利用轻量级的视觉任务编码器和解码器执行视觉感知任务(如检测、分割),有效缓解了以往将视觉输出离散化为token的训练困难,并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外,由于推理过程中只需要一个token嵌入来解码视觉输出,结果序列长度可大幅减少。因此,该方法能够实现准确灵活的表示,无缝集成视觉感知任务,并高效处理多个视觉输出,通过广泛的实验证实了该方法的有效性和效率,结果表明,在更少的可训练参数和GPU时间的情况下取得了显著的改进,为未来赋予LLMs视觉感知能力的研究提供了便利。
Nov, 2023
通过整合大型语言模型(LLMs)提升预训练视觉-语言模型(VL)在低样本图像分类中的能力,提出了大型语言模型作为提示学习者(LLaMP)的方法,并在11个数据集上的零样本和小样本图像分类任务中取得了更好的性能。
Dec, 2023
讨论构建出色的多模态大型语言模型的重要组成部分和数据选择,通过仔细和全面的分析,证明了使用图像-标题、交错图像-文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型,构建了以稠密模型和专家混合模型为特征的MM1系列多模态模型,这些模型在预训练指标上取得最新成果,并在一系列已建立的多模态基准测试中实现了有竞争力的性能。
Mar, 2024