从关联到生成：通过无监督的跨模态映射进行纯文本描述

Apr, 2023

从关联到生成：通过无监督的跨模态映射进行纯文本描述

From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping

Junyang Wang, Ming Yan, Yi Zhang, Ming Yan

TL;DR本文介绍了一种名为 Knight 的基于 K 最近邻跨模态映射的零样本图像和视频描述生成方法，利用文本无监督训练实现了图像和视频描述的最新零样本表现。

Abstract

With the development of vision-language pre-training models (VLPMs) represented by clip and ALIGN, significant breakthroughs have been achieved for association-based visual tasks such as image classification and

vision-language pre-training models clip zero-shot capability generation-based tasks k-nearest-neighbor cross-modality mapping

发现论文，激发创造

通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成

通过减少视觉和文本之间的模态差异，我们提出了一种零摄影机图片字幕框架，通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能，并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。

Jan, 2024

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

Zoom-shot: 快速高效的无监督零样本迁移 CLIP 到视觉编码器的多模态损失

通过 Zoom-shot 方法，利用多模态损失函数将 CLIP 潜空间与预训练视觉编码器的潜空间进行线性映射，从而在粗粒度和细粒度分类数据集上提升了现有的零样本能力，实现了下一代 VLMs 的开发。

Jan, 2024

DeCap：通过纯文本训练对 CLIP 潜变量进行解码，实现零样本描述

该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题，通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求，并提出了一个训练 - free 机制来减少模态间差异。实验证明，DeCap 在典型的图像说明基准测试中表现优异。

Mar, 2023

多单帽编码：用于零 - shot 多语言视觉字幕的自动编码提示

多场景和多语言的视觉描述生成中，我们提出了一种简单而有效的零样本方法 MultiCapCLIP，它可以在不需要标注视觉 - 描述对的情况下，为不同的场景和语言生成视觉描述，并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。

Aug, 2023

无监督文本到图像生成的变分分布学习

本文提出了一种基于深度神经网络的文本到图像生成算法，使用预训练的 CLIP 模型和变分推断的方式，优化算法并取得了在无监督和半监督文本图像生成任务下 beat state-of-the-art 的结果。

Mar, 2023

通过合成对的方法改善文本式图像描述的跨模态对齐

本研究提出了一种新方法，通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像，并优化合成图像在 CLIP 嵌入空间中的伪特征以接近真实图像特征，同时利用图像中的显著对象来增强模态对齐的学习。实验证明，该方法在基准数据集上取得了最先进的性能。

Dec, 2023

理解 CLIP 中的可迁移表征学习和零射击迁移

通过对 CLIP 的理论研究，我们证明了多模态学习的可转移表示学习，并分析了其在零样本学习和下游任务中的性能。在此基础上，我们提出了一种新的 CLIP 类型方法，在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。

Oct, 2023

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023