基于进化伪标记的零样本视频字幕生成

Jul, 2022

基于进化伪标记的零样本视频字幕生成

Zero-Shot Video Captioning with Evolving Pseudo-Tokens

Yoad Tewel, Yoav Shalev, Roy Nadler, Idan Schwartz, Lior Wolf

TL;DR本文提出了一种零样本视频字幕生成方法，采用了冻结的 GPT-2 语言模型和 CLIP 图像 - 文本匹配模型，并通过生成过程中的优化方法生成了连贯、具有广泛实际知识的视频字幕。

Abstract

We introduce a zero-shot video captioning method that employs two frozen networks: the gpt-2 language model and the clip image-text matching mode

zero-shot video captioning gpt-2 language model clip image-text matching model sentence generation real-world knowledge

发现论文，激发创造

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

联合优化文本和时刻的零样本密集视频字幕生成

ZeroTA 是一种用零样本方式进行密集视频字幕生成的新方法，它通过与语言生成模型和视觉语言模型的联合优化来定位和描述输入视频中的事件。

Jul, 2023

多单帽编码：用于零 - shot 多语言视觉字幕的自动编码提示

多场景和多语言的视觉描述生成中，我们提出了一种简单而有效的零样本方法 MultiCapCLIP，它可以在不需要标注视觉 - 描述对的情况下，为不同的场景和语言生成视觉描述，并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。

Aug, 2023

无 Token 留存：可解释性辅助的图像分类与生成

本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题，此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分，并且可以提高图像识别率和生成图像的质量。同时，研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。

Apr, 2022

GPT-4 作为科学图注的有效零样学习评估器

使用大型语言模型（LLMs）作为一种经济的、无需参考的方法来评估科学图的标题，通过与人类学术专家评估和其他模型评估相比较，GPT-4 在评估中表现出色，甚至超过了计算机科学与信息学本科生的评估结果。

Oct, 2023

ZeroCap：面向视觉语义算术的零样本图像到文本生成

本文介绍了一种将视觉语义模型和大型语言模型相结合的技术，实现了对图像生成描述性文本的能力，且可用于图像算术和视觉类比等高级视觉能力的应用。

Nov, 2021

VTG-GPT: 使用 GPT 的免调整零样本视频时态定位

视频时间定位（VTG）目标是根据语言查询从未经修剪的视频中定位特定的时间段。我们提出了 VTG-GPT，这是一种基于 GPT 的零训练或微调的方法，以减少人为偏见和冗余信息，并实现与有监督方法相媲美的性能。

Mar, 2024

通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成

通过减少视觉和文本之间的模态差异，我们提出了一种零摄影机图片字幕框架，通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能，并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。

Jan, 2024

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023