XGPT: 图像字幕跨模态生成预训练模型
本研究提出了 VisualGPT,一种数据高效的图像字幕模型,它利用了预先训练的语言模型中获得的语言知识,使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型,并通过稀疏激活单元减少了零梯度的影响,我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1%,0.5%和 1%的训练,结果表明,我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8%,在 Conceptual Captions 上高达 5.4%,并在医学报告生成数据集 IU X-ray 上取得了最新的结果。
Feb, 2021
提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT),通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标,以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。
Jan, 2022
通过联接预训练的视觉编码器和语言解码器,提出了一种自组装的交叉模式融合机制,建立了一种朴素但高效的端到端形象字幕框架,名为 VC-GPT,不需要额外的物体探测器,非常好地解决了现有方法中可能存在的问题,验证结果显示 VC-GPT 完全超越了传统基线系统。
Jan, 2022
该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。
May, 2024
VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT,用于图像 - 文本联合嵌入,该模型基于 Transformer,可以将不同的模态作为输入,并建模它们之间的关系。通过多阶段的预训练策略,可以提高预训练质量,最终在图像检索和文本检索任务上获得了新的最先进结果。
Jan, 2020
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
May, 2022
本文介绍了一种统一且通用的生物医学生成式预训练转换器(BiomedGPT)模型,利用自监督方法在大量和多样化的数据集上进行训练,可接受多模式输入并执行多种下游任务,在 20 个公共数据集上表现优于先前绝大多数最先进模型,涵盖了 15 种独特的生物医学模式。通过实验展示了我们的多模式和多任务预训练方法将知识转移应用于先前未曾见过的数据的有效性。总的来说,本研究在开发生物医学统一通用模型方面迈出了重要的一步,对于改善医疗保健结果具有深远的影响。
May, 2023
本文介绍了 D-iGPT,这是对 image-GPT 进行改进的一种方法,通过将预测目标从原始像素转移到语义标记上,实现对视觉内容的更高级理解,并通过预测可见标记来补充自回归建模,实现了更好的效果。实验证明,D-iGPT 在 ImageNet-1K 数据集上取得了令人瞩目的成绩,并在下游任务中表现出较强的泛化能力和在分布外样本上的鲁棒性。
Dec, 2023
本研究提出了一个名为 MAGIC 的无需训练的框架,它能够将视觉控制插入文本生成过程中,并使 LM 在零样本情况下执行多模态任务,如图像字幕生成。在零样本图像字幕生成方面,MAGIC 在几乎 27 倍的解码加速度下,极大地超越了现有的最先进方法。
May, 2022