大规模预训练模型是否可帮助视觉模型完成感知任务?
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言(V+L)方面的应用,通过评估和探索内部机制,提供了关于多模式预训练及其注意力头的启示和指导。
May, 2020
本文提出了一种名为 PerceptionGPT 的新型端到端框架,通过利用 LLMs 的 token 嵌入的表示能力,高效有效地赋予 VLLMs 视觉感知能力。该方法以 LLMs 的 token 嵌入作为空间信息的携带者,利用轻量级的视觉任务编码器和解码器执行视觉感知任务(如检测、分割),有效缓解了以往将视觉输出离散化为 token 的训练困难,并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外,由于推理过程中只需要一个 token 嵌入来解码视觉输出,结果序列长度可大幅减少。因此,该方法能够实现准确灵活的表示,无缝集成视觉感知任务,并高效处理多个视觉输出,通过广泛的实验证实了该方法的有效性和效率,结果表明,在更少的可训练参数和 GPU 时间的情况下取得了显著的改进,为未来赋予 LLMs 视觉感知能力的研究提供了便利。
Nov, 2023
本文综述了预训练大型多模态模型的背景、任务定义、挑战、优势以及验证方式,并重点讨论了数据、目标、网络结构、知识增强等方面。此外,文章还给出了模型参数和结果的可视化和分析,并指出了未来的可能研究方向。
Feb, 2023
近期,大型语言模型(LLMs)与计算机视觉(CV)的交叉领域成为人工智能(AI)领域重要的研究领域,驱动了重大的进展。该综述论文探讨了变压器及其后继者在转换器和大型语言模型中的最新进展,强调了其对视觉变压器和 LLMs 的革命潜力。同时通过对多个领先的付费和开源 LLMs 的性能指标的对比分析,揭示了它们的优势和改进空间,并回顾了 LLMs 如何用于解决视觉相关任务的文献综述。此外,该综述还提供了用于训练 LLMs 的全面数据集合,并为 LLMs 的预训练和下游任务的高性能实现提供了洞见。综述通过强调 LLMs 在 CV 上的深刻交叉,指出了集成和先进 AI 模型的新时代的潜在研究和发展方向。
Nov, 2023
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
本文介绍了 MiniGPT-4 模型,该模型利用像 GPT-4 这样的先进的大型语言模型(LLM)与视觉编码器对齐,可以生成详细的图像描述和从手写草图中创建网站等多重能力,采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。
Apr, 2023
提出了一种新的多模态训练范式,用于编码视觉皮层中的 fMRI 活动。使用预训练的 LLM 和对比损失函数完成图像和文本信息的对齐,提高了视觉编码模型的性能。
Jan, 2024