多模式提示下的零备和少备视频问答

ICCVSep, 2023

多模式提示下的零备和少备视频问答

Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts

Deniz Engin, Yannis Avrithis

TL;DR近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战，本研究引入了一种参数高效的方法来解决这些问题，通过结合多模态提示学习和基于 Transformer 的映射网络，在预训练模型的冻结状态下实现。在几个视频问答基准测试中，我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。

Abstract

Recent vision-language models are driven by large-scale pretrained models. However, adapting pretrained models on limited data presents ch

vision-language models pretrained models parameter-efficient method multimodal prompt learning transformer-based mapping network

发现论文，激发创造

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

多语言多模态预训练用于零样本跨语言视觉语言模型迁移

本文研究了视觉语言模型的零样本跨语言迁移。我们专注于多语言文本到视频搜索，并提出了一种基于 Transformer 模型的方法来学习上下文相关的多语言多模态嵌入。在零样本设置下，我们在用非英语句子查询多语言文本 - 视频模型时发现性能显著下降。为了解决这个问题，我们引入了多语言多模态预训练策略，并收集了一个新的多语言教学视频数据集（MultiHowTo100M）进行预训练。在 VTT 上的实验表明，我们的方法显著提高了非英语语言的视频搜索效果，而无需额外的注释。此外，当有多语言注释时，我们的方法在 VTT 和 VATEX 上的多语言文本到视频搜索以及 Multi30K 上的多语言文本到图像搜索方面大幅优于最近的基准线。

Mar, 2021

利用冻结的双向语言模型实现零样本视频问答

本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法，它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合，通过屏蔽的语言模型进行零样本视频问答推理，相较于目前现有的方法，在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上，取得了显著的优势，同时在少样本和完全监督的情况下也表现出了有竞争力的结果。

Jun, 2022

使用冻结语言模型的多模式小样本学习

通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只有少数几个样例进行视觉问答，或者利用外部知识。

Jun, 2021

良好的提示价值数百万个参数：面向低资源的基于提示的视觉语言模型学习

本论文研究了基于 prompt 的低资源视觉语言（VL）任务 few-shot 学习。对大规模预训练的 VL 模型进行了实验，证明 FewVLM 在 VQA 任务上的效果优于 Frozen，而且能够达到比更大的模型 PICa 相当的结果。

Oct, 2021

面向生成视觉问答的多模态提示检索

提出了一种结合多模态提示检索和生成模型的方法，该方法可以在医学领域的视觉问题回答任务中比非检索方法提高高达 30％的精度。

Jun, 2023

从图像到文本提示：使用 Frozen 大语言模型进行零样本 VQA

提出了 Img2Prompt 模块，它可以提供可以描述图像内容和自构建问题答案对的提示，并且能够帮助 LLMs 执行无需端到端训练的零射击 VQA 任务。

Dec, 2022

视觉 - 语言模型上的少样本对抗性提示学习

通过限制数据和提供对抗文本监督，提出了一种少样本对抗提示框架，该框架在提高对抗鲁棒性方面表现出卓越的能力，并在仅使用 1％的训练数据时，达到了与最先进的零样本对抗鲁棒性相匹配的水平。

Mar, 2024

多任务提示训练实现零样例任务泛化

通过将广泛多样的监督数据集转换为易读提示集合的方式，使用预先训练的编码器 - 解码器模型进行多任务学习可以直接导致强大的零 - shot 表现，该方法能够在多个标准数据集上表现出比同类模型大多数情况下强 16 倍的性能，并在 BIG-bench 基准测试中的某些任务上表现出比同类型模型强 6 倍的性能。

Oct, 2021

少即是多：多模态少样本学习的深入研究

为了解决深度学习中少样本学习的挑战，我们提出了一个简单而有效的框架，专门设计用于利用文本信息和语言模型，通过学习可调的提示来显式地利用预训练的语言模型的零样本能力，并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块，进一步运用自集成和蒸馏来增强这些组件，在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果，特别值得注意的是，在 1-shot 学习任务中，我们的分类准确率平均超过基准方法 3.0%。

Jan, 2024