强大的视觉表达学习者：重塑 Image-GPT

Dec, 2023

强大的视觉表达学习者：重塑 Image-GPT

Rejuvenating image-GPT as Strong Visual Representation Learners

Sucheng Ren, Zeyu Wang, Hongru Zhu, Junfei Xiao, Alan Yuille...

TL;DR本文介绍了 D-iGPT，这是对 image-GPT 进行改进的一种方法，通过将预测目标从原始像素转移到语义标记上，实现对视觉内容的更高级理解，并通过预测可见标记来补充自回归建模，实现了更好的效果。实验证明，D-iGPT 在 ImageNet-1K 数据集上取得了令人瞩目的成绩，并在下游任务中表现出较强的泛化能力和在分布外样本上的鲁棒性。

Abstract

This paper enhances image-gpt (iGPT), one of the pioneering works that introduce autoregressive pretraining to predict next pixels for visual representation learning. Two simple yet essential changes are made. Fi

image-gpt autoregressive pretraining semantic tokens visual representations d-igpt

发现论文，激发创造

VL-GPT：用于视觉与语言理解与生成的生成式预训练 Transformer 模型

VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

VisualGPT：预训练语言模型数据有效适配图像字幕生成

本研究提出了 VisualGPT，一种数据高效的图像字幕模型，它利用了预先训练的语言模型中获得的语言知识，使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型，并通过稀疏激活单元减少了零梯度的影响，我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1％，0.5％和 1％的训练，结果表明，我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8％，在 Conceptual Captions 上高达 5.4％，并在医学报告生成数据集 IU X-ray 上取得了最新的结果。

Feb, 2021

iVideoGPT: 可扩展世界模型的交互式 VideoGPT

通过引入 Interactive VideoGPT (iVideoGPT) 框架，可以在实现世界决策过程中，使模型交互地探索、推理和规划。 iVideoGPT 通过将多模态信号（视觉观察，行为和奖励）整合成一系列令牌，实现了通过下一个令牌预测的交互式体验，其中包括一种高效离散化高维视觉观察的新型压缩词汇化技术。借助其可扩展的架构，我们能够在数百万人类和机器人操作轨迹上进行预训练，建立起适用于各种下游任务的多功能基础，其中包括动作条件的视频预测，可视化规划和基于模型的强化学习，并且在与最先进方法相比，iVideoGPT 实现了竞争性的性能。我们的工作推进了交互式通用世界模型的发展，弥合了生成式视频模型和实际模型导向强化学习应用之间的差距。

May, 2024

XGPT: 图像字幕跨模态生成预训练模型

这篇论文提出了一种新的跨模态生成预训练方法 XGPT，用于图像字幕生成，其能够在不需要特定任务架构修改的情况下进行微调，实验证明在基准数据集上获得了新的最佳结果，并且在图像检索任务中作为数据增强产生了显著的进步。

Mar, 2020

对比视觉语义预训练增强自然语言表示中的语义

该研究探讨了对比视觉语义预训练的影响，通过比较 GPT-2 和 CLIP 形成的英语语言表示的几何和语义特性，发现对比视觉语义预训练显著缓解了 GPT-2 上存在的各向异性，提供了较好的词级和句级的语义表示效果。

Mar, 2022

改进 VQGAN 的向量量化图像建模

使用预训练 Transformers 模型，结合 VQGAN 模型实现离散图像向量量化，进一步提高了图像生成和无监督表示学习的效率和准确性。同时，该模型还在 ImageNet 数据集上的线性探针准确性方面的表现优于同等规模的 Image GPT-L 和 Image GPT-XL 模型。

Oct, 2021

SurgicalGPT: 外科视觉问答的端到端语言 - 视觉生成预训练模型

本文介绍了一种可伸缩的 Language-Vision GPT（LV-GPT）模型，它将 GPT2 模型扩展到包括视觉输入（图像），以改进机器人手术中的视觉问题回答（VQA）任务，该模型在内窥镜视觉挑战机器人场景分割 2018、CholecTriplet2021 和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。

Apr, 2023

用 GPT-4 增强 CLIP：利用视觉描述作为提示

我们展示了如何使用 GPT-4 生成视觉描述性文本，并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比，在专门的细粒度数据集上，我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器，学习选择最佳的句子来构建具有优越性能的可推广分类器。

Jul, 2023

MiniGPT-5：基于生成 Vokens 的交叉视觉与语言生成

分阶段训练方法和生成 vokens 提高大型语言模型在视觉和语言生成方面的效果。

Oct, 2023

GiT: 通向通用视觉 Transformer 的普适语言接口

这篇论文提出了一种简单而有效的框架，名为 GiT，它能够同时适用于各种视觉任务，只需一个简单的 ViT 模型。

Mar, 2024