检索增强型零样本视频字幕生成

May, 2024

Retrieval Enhanced Zero-Shot Video Captioning

Yunchuan Ma, Laiyun Qing, Guorong Li, Yuankai Qi, Quan Z. Sheng...

TL;DR该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

Abstract

Despite the significant progress of fully-supervised video captioning, zero-shot methods remain much less explored. In this paper, we propose to take advantage of existing pre-trained large-scale vision and langu

fully-supervised video captioning zero-shot methods pre-trained models video understanding text generation

发现论文，激发创造

基于进化伪标记的零样本视频字幕生成

本文提出了一种零样本视频字幕生成方法，采用了冻结的 GPT-2 语言模型和 CLIP 图像 - 文本匹配模型，并通过生成过程中的优化方法生成了连贯、具有广泛实际知识的视频字幕。

Jul, 2022

学习从图像描述到视频检索

我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练，在这种协议下，我们不假设对任何视频有标签的访问，即没有对应用真实字幕的视频集的访问权限；但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景，因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近，零样本学习的图像专家，如 CLIP 已经为视频理解任务建立了强大的基准线。在本文中，我们利用这一进展，实例化两种类型的图像专家模型：文本到图像检索模型用于提供初始骨架，以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧，可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征，进而在文本到视频检索任务中胜过强大的零样本学习基准线 CLIP。在训练过程中，我们从多个最佳匹配视觉内容的视频帧中采样字幕，并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解，并通过在三个标准数据集（ActivityNet、MSR-VTT 和 MSVD）上胜过 CLIP 的零样本学习基准线来证明这个简单框架的有效性。

Apr, 2024

多单帽编码：用于零 - shot 多语言视觉字幕的自动编码提示

多场景和多语言的视觉描述生成中，我们提出了一种简单而有效的零样本方法 MultiCapCLIP，它可以在不需要标注视觉 - 描述对的情况下，为不同的场景和语言生成视觉描述，并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。

Aug, 2023

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

DeCap：通过纯文本训练对 CLIP 潜变量进行解码，实现零样本描述

该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题，通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求，并提出了一个训练 - free 机制来减少模态间差异。实验证明，DeCap 在典型的图像说明基准测试中表现优异。

Mar, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

联合优化文本和时刻的零样本密集视频字幕生成

ZeroTA 是一种用零样本方式进行密集视频字幕生成的新方法，它通过与语言生成模型和视觉语言模型的联合优化来定位和描述输入视频中的事件。

Jul, 2023

无监督文本到图像生成的变分分布学习

本文提出了一种基于深度神经网络的文本到图像生成算法，使用预训练的 CLIP 模型和变分推断的方式，优化算法并取得了在无监督和半监督文本图像生成任务下 beat state-of-the-art 的结果。

Mar, 2023

通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成

通过减少视觉和文本之间的模态差异，我们提出了一种零摄影机图片字幕框架，通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能，并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。

Jan, 2024

无 Token 留存：可解释性辅助的图像分类与生成

本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题，此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分，并且可以提高图像识别率和生成图像的质量。同时，研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。

Apr, 2022