VisualGPT：预训练语言模型数据有效适配图像字幕生成

Feb, 2021

VisualGPT：预训练语言模型数据有效适配图像字幕生成

VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning

Jun Chen, Han Guo, Kai Yi, Boyang Li, Mohamed Elhoseiny

TL;DR本研究提出了 VisualGPT，一种数据高效的图像字幕模型，它利用了预先训练的语言模型中获得的语言知识，使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型，并通过稀疏激活单元减少了零梯度的影响，我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1％，0.5％和 1％的训练，结果表明，我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8％，在 Conceptual Captions 上高达 5.4％，并在医学报告生成数据集 IU X-ray 上取得了最新的结果。

Abstract

The ability to quickly learn from a small quantity oftraining data widens the range of machine learning applications. In this paper, we propose a data-efficient image captioning model, VisualGPT, which leverages

image captioning machine learning pretrained language model data efficiency self-resurrecting activation unit

发现论文，激发创造

XGPT: 图像字幕跨模态生成预训练模型

这篇论文提出了一种新的跨模态生成预训练方法 XGPT，用于图像字幕生成，其能够在不需要特定任务架构修改的情况下进行微调，实验证明在基准数据集上获得了新的最佳结果，并且在图像检索任务中作为数据增强产生了显著的进步。

Mar, 2020

VL-GPT：用于视觉与语言理解与生成的生成式预训练 Transformer 模型

VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

一种简单且高效的端到端图像描述方法

通过联接预训练的视觉编码器和语言解码器，提出了一种自组装的交叉模式融合机制，建立了一种朴素但高效的端到端形象字幕框架，名为 VC-GPT，不需要额外的物体探测器，非常好地解决了现有方法中可能存在的问题，验证结果显示 VC-GPT 完全超越了传统基线系统。

Jan, 2022

强大的视觉表达学习者：重塑 Image-GPT

本文介绍了 D-iGPT，这是对 image-GPT 进行改进的一种方法，通过将预测目标从原始像素转移到语义标记上，实现对视觉内容的更高级理解，并通过预测可见标记来补充自回归建模，实现了更好的效果。实验证明，D-iGPT 在 ImageNet-1K 数据集上取得了令人瞩目的成绩，并在下游任务中表现出较强的泛化能力和在分布外样本上的鲁棒性。

Dec, 2023

多模态视频字幕生成的端到端生成预训练

提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT)，通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标，以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。

Jan, 2022

RegionGPT：面向区域理解的视觉语言模型

区域语言模型 (RegionGPT) 是一种新的框架，通过改进视觉编码器的空间感知能力以及集成任务导向指令提示来实现复杂的区域级标题生成和理解，提高在复杂区域描述、推理、对象分类和引用表达理解等区域级任务上的性能。

Mar, 2024

DreamLIP：长描述文本的语言 - 图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

用 GPT-4 增强 CLIP：利用视觉描述作为提示

我们展示了如何使用 GPT-4 生成视觉描述性文本，并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比，在专门的细粒度数据集上，我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器，学习选择最佳的句子来构建具有优越性能的可推广分类器。

Jul, 2023