XGPT: 图像字幕跨模态生成预训练模型

Mar, 2020

XGPT: 图像字幕跨模态生成预训练模型

XGPT: Cross-modal Generative Pre-Training for Image Captioning

Qiaolin Xia, Haoyang Huang, Nan Duan, Dongdong Zhang, Lei Ji...

TL;DR这篇论文提出了一种新的跨模态生成预训练方法 XGPT，用于图像字幕生成，其能够在不需要特定任务架构修改的情况下进行微调，实验证明在基准数据集上获得了新的最佳结果，并且在图像检索任务中作为数据增强产生了显著的进步。

Abstract

While many bert-based cross-modal pre-trained models produce excellent results on downstream understanding tasks like image-text retrieval and VQA, they cannot be applied to generation tasks directly. In this pap

bert-based cross-modal pre-trained models xgpt image captioning generative pre-training

发现论文，激发创造

VisualGPT：预训练语言模型数据有效适配图像字幕生成

本研究提出了 VisualGPT，一种数据高效的图像字幕模型，它利用了预先训练的语言模型中获得的语言知识，使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型，并通过稀疏激活单元减少了零梯度的影响，我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1％，0.5％和 1％的训练，结果表明，我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8％，在 Conceptual Captions 上高达 5.4％，并在医学报告生成数据集 IU X-ray 上取得了最新的结果。

Feb, 2021

多模态视频字幕生成的端到端生成预训练

提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT)，通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标，以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。

Jan, 2022

一种简单且高效的端到端图像描述方法

通过联接预训练的视觉编码器和语言解码器，提出了一种自组装的交叉模式融合机制，建立了一种朴素但高效的端到端形象字幕框架，名为 VC-GPT，不需要额外的物体探测器，非常好地解决了现有方法中可能存在的问题，验证结果显示 VC-GPT 完全超越了传统基线系统。

Jan, 2022

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

VL-GPT：用于视觉与语言理解与生成的生成式预训练 Transformer 模型

VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022

BiomedGPT：一种统一和综合的生物医学生成式预训练 Transformer，可用于视觉、语言和多模态任务

本文介绍了一种统一且通用的生物医学生成式预训练转换器（BiomedGPT）模型，利用自监督方法在大量和多样化的数据集上进行训练，可接受多模式输入并执行多种下游任务，在 20 个公共数据集上表现优于先前绝大多数最先进模型，涵盖了 15 种独特的生物医学模式。通过实验展示了我们的多模式和多任务预训练方法将知识转移应用于先前未曾见过的数据的有效性。总的来说，本研究在开发生物医学统一通用模型方面迈出了重要的一步，对于改善医疗保健结果具有深远的影响。

May, 2023

强大的视觉表达学习者：重塑 Image-GPT

本文介绍了 D-iGPT，这是对 image-GPT 进行改进的一种方法，通过将预测目标从原始像素转移到语义标记上，实现对视觉内容的更高级理解，并通过预测可见标记来补充自回归建模，实现了更好的效果。实验证明，D-iGPT 在 ImageNet-1K 数据集上取得了令人瞩目的成绩，并在下游任务中表现出较强的泛化能力和在分布外样本上的鲁棒性。

Dec, 2023

语言模型的视野：在文本生成中插入视觉控制

本研究提出了一个名为 MAGIC 的无需训练的框架，它能够将视觉控制插入文本生成过程中，并使 LM 在零样本情况下执行多模态任务，如图像字幕生成。在零样本图像字幕生成方面，MAGIC 在几乎 27 倍的解码加速度下，极大地超越了现有的最先进方法。

May, 2022