多单帽编码：用于零 - shot 多语言视觉字幕的自动编码提示

ACLAug, 2023

多单帽编码：用于零 - shot 多语言视觉字幕的自动编码提示

MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning

Bang Yang, Fenglin Liu, Xian Wu, Yaowei Wang, Xu Sun...

TL;DR多场景和多语言的视觉描述生成中，我们提出了一种简单而有效的零样本方法 MultiCapCLIP，它可以在不需要标注视觉 - 描述对的情况下，为不同的场景和语言生成视觉描述，并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。

Abstract

supervised visual captioning models typically require a large scale of images or videos paired with descriptions in a specific language (i.e., the vision-caption pairs) for training. However, collecting and labeling large-scale datasets is time-consuming and expensive for many scenario

supervised visual captioning zero-shot approach multicapclip image and video captioning bleu@4 and cider metrics

发现论文，激发创造

DeCap：通过纯文本训练对 CLIP 潜变量进行解码，实现零样本描述

该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题，通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求，并提出了一个训练 - free 机制来减少模态间差异。实验证明，DeCap 在典型的图像说明基准测试中表现优异。

Mar, 2023

ClipCap: 图像字幕的 CLIP 前缀

本文使用 CLIP 编码作为前缀，利用简单的映射网络，然后微调语言模型以生成图像标题，无需额外的注释或预训练，有效地为大规模和多样化的数据集生成有意义的标题。同时，我们证明了我们的模型在有挑战性的概念标题和 nocaps 数据集上取得了可比较的结果，同时更简单、更快、更轻。

Nov, 2021

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

LMCap: 基于检索增强语言模型提示的少样本多语言图像字幕生成

提出了一种无需多语种字幕数据，使用基于检索式的模型 LMCap，在进行少样本学习的情况下完成多语种图像字幕生成，其步骤包括使用多语 CLIP 编码器检索相似图像的字幕，将这些字幕结合成 XGLM 解码器的提示来生成所需语言的字幕，并在实验中证明，该模型不需要在任何字幕数据上进行监督学习，即可与完全监督的多语种字幕生成模型相竞争。

May, 2023

基于文本数据的图像标题生成与交互提示

TIPCap 是一种基于文本数据的交互提示的图像标题生成方法，通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异，并在生成标题之前引入可选的提示信息，优于其他弱监督或无监督的图像标题生成方法，并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。

Mar, 2024

MeaCap: 存储增强的零样本图像描述

提出了一种新颖的记忆增强型零样本图像字幕生成框架（MeaCap），通过装备文本记忆并引入检索 - 过滤模块，使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型，生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕；该框架在一系列零样本图像字幕设置中取得了最先进的性能。

Mar, 2024

AutoCLIP：为视觉 - 语言模型自动调优的零样本分类器

AutoCLIP 是一种自动调整零样本分类器的方法，通过根据推理时间的类描述符 - 图像相似性统计导出每个图像的每个提示模板的权重，并展示在广泛的视觉语言模型、数据集和提示模板中，AutoCLIP 始终稳定地优于基线，并提高了多达 3 百分点的准确性。

Sep, 2023

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024