大规模双向训练的零样本图像描述

Nov, 2022

大规模双向训练的零样本图像描述

Large-Scale Bidirectional Training for Zero-Shot Image Captioning

Taehoon Kim, Mark Marsden, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee...

TL;DR本文介绍了一种名为 BITTERS 的零 - shot 图像描述框架及数据集评估方法，通过双向图像文本训练以及精细调整提高图像描述精度。

Abstract

When trained on large-scale datasets, image captioning models can understand the content of images from a general domain but often fail to generate accurate, detailed captions. To improve performance, pretraining

image captioning pretraining bitters zero-shot captioning finetuning

发现论文，激发创造

图像字幕生成器也是可扩展的视觉学习者

本文通过仔细匹配训练数据、计算和模型容量，公平地比较了对比预训练和图像字幕等两种预训练策略，并发现仅采用图像字幕训练也很有效，既可以产生与对比预训练编码器竞争的视觉编码器，也可以在视觉和语言任务上超越它们。

Jun, 2023

通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成

通过减少视觉和文本之间的模态差异，我们提出了一种零摄影机图片字幕框架，通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能，并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。

Jan, 2024

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

临床准确且可解释的双向字幕模型

本研究通过双向字幕法对放射学报告进行预训练，与对比性训练方法相比，表明字幕法预训练不仅可以产生具有竞争力的视觉编码器，还可以生成具有临床相关性的报告和针对性的交互性输出。

Oct, 2023

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

使用类别描述标注的零样本文本分类训练的好处

本研究提出了一种简单的方法来进一步提高零 - shot 分类准确性，即利用精心策划的微调数据集描述任务的标签，进而在多个文本域中获得强大的预测模型。

May, 2023

Lipsum-FT：使用随机文本引导的零样本模型健壮微调

大规模对比视觉 - 语言预训练模型提供了零样本模型，其可在一系列图像分类任务中取得竞争性的表现，而无需在下游数据上进行训练。最近的研究表明，对零样本模型的额外微调可以提高下游的性能，但会削弱模型对分布变化的鲁棒性。本文通过研究基于特征失真理论和联合能量模型的鲁棒微调条件，并提出一种新的鲁棒微调算法 Lipsum-FT，该算法有效地利用视觉 - 语言预训练模型中的语言建模特性。在 DomainNet 和 ImageNet 的分布变化场景上进行的大量实验实证了我们提出的 Lipsum-FT 方法优于现有的鲁棒微调方法。

Apr, 2024

UniBoost: 无监督单模态预训练来提升零样本视觉语言任务能力

使用大规模非监督单模型预训练可以提高图像 - 文本匹配的零样本性能和模型理解图像和文本关系的能力

Jun, 2023

DreamLIP：长描述文本的语言 - 图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016