大规模预训练模型是否可帮助视觉模型完成感知任务？

Jun, 2023

大规模预训练模型是否可帮助视觉模型完成感知任务？

Can Large Pre-trained Models Help Vision Models on Perception Tasks?

Ning Ding, Yehui Tang, Zhongqian Fu, Chao Xu, Kai Han...

TL;DR本文提出一种新的学习范式，通过利用提前训练的大型模型来增强传统视觉模型的表示能力，并在多个视觉模型中验证了该算法的有效性，可以提高图像分类等任务的准确性。

Abstract

The recent upsurge in pre-trained large models (e.g. GPT-4) has swept across the entire deep learning community. Such powerful large language models (LLMs) demonstrate advanced generative ability and

发现论文，激发创造

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用Transformer模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

视觉-语言预训练模型综述

本文综述了视觉-语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

视觉与语言预训练

本篇研究综述了当下Vision-and-Language领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

大规模多模态预训练模型：综述

本文综述了预训练大型多模态模型的背景、任务定义、挑战、优势以及验证方式，并重点讨论了数据、目标、网络结构、知识增强等方面。此外，文章还给出了模型参数和结果的可视化和分析，并指出了未来的可能研究方向。

Feb, 2023

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

语言模型中的冰冻Transformer是有效的视觉编码层

利用大型语言模型进行视觉任务，通过冻结预训练的语言模型的转换器块作为视觉令牌的编码器层，能够显著改善计算机视觉任务的性能，并提出信息过滤假设来解释预训练语言模型在视觉编码中的有效性。

Oct, 2023

PerceptionGPT: 将视觉感知有效融合到LLM中

本文提出了一种名为PerceptionGPT的新型端到端框架，通过利用LLMs的token嵌入的表示能力，高效有效地赋予VLLMs视觉感知能力。该方法以LLMs的token嵌入作为空间信息的携带者，利用轻量级的视觉任务编码器和解码器执行视觉感知任务（如检测、分割），有效缓解了以往将视觉输出离散化为token的训练困难，并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外，由于推理过程中只需要一个token嵌入来解码视觉输出，结果序列长度可大幅减少。因此，该方法能够实现准确灵活的表示，无缝集成视觉感知任务，并高效处理多个视觉输出，通过广泛的实验证实了该方法的有效性和效率，结果表明，在更少的可训练参数和GPU时间的情况下取得了显著的改进，为未来赋予LLMs视觉感知能力的研究提供了便利。

Nov, 2023

大型语言模型是低样本图像分类的良好触发器学习者

通过整合大型语言模型（LLMs）提升预训练视觉-语言模型（VL）在低样本图像分类中的能力，提出了大型语言模型作为提示学习者（LLaMP）的方法，并在11个数据集上的零样本和小样本图像分类任务中取得了更好的性能。

Dec, 2023

MM1: 多模态LLM预训练的方法、分析与洞察

讨论构建出色的多模态大型语言模型的重要组成部分和数据选择，通过仔细和全面的分析，证明了使用图像-标题、交错图像-文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型，构建了以稠密模型和专家混合模型为特征的MM1系列多模态模型，这些模型在预训练指标上取得最新成果，并在一系列已建立的多模态基准测试中实现了有竞争力的性能。

Mar, 2024