通过冻结大型语言模型实现零样本视频问答

Jun, 2023

通过冻结大型语言模型实现零样本视频问答

Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models

Junting Pan, Ziyi Lin, Yuying Ge, Xiatian Zhu, Renrui Zhang...

TL;DR本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Abstract

video question answering (VideoQA) has been significantly advanced from the scaling of recent large language models (LLMs). The key idea is to convert the visual information into the language feature space so tha

video question answering large language models retrieving-to-answer multi-modal model text corpus

发现论文，激发创造

利用冻结的双向语言模型实现零样本视频问答

本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法，它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合，通过屏蔽的语言模型进行零样本视频问答推理，相较于目前现有的方法，在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上，取得了显著的优势，同时在少样本和完全监督的情况下也表现出了有竞争力的结果。

Jun, 2022

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

大型语言模型是视频问答中的时间和因果推理器

通过使用 Flipped-VQA 框架，我们成功应用于 LLaMA-VQA 和其它 LLMs 模型，取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果，并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

Oct, 2023

面向大规模视频库的检索增强生成

通过使用大型语言模型（LLM）生成搜索查询，检索由语音和视觉元数据索引的相关视频片段，并将用户查询与此元数据集成以生成具有特定视频时间戳的响应，我们提出了一种在视频库中应用检索增强生成（RAG）的可互操作体系结构，该方法公有多媒体内容检索和人工智能辅助视频内容创建中潜在应用。

Jun, 2024

利用大型语言模型和检索加强生成来提高教科书问答任务

该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法，以处理复杂的语境和多模态数据，并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG，我们的架构在非图表多项选择题中相较于基线模型，在验证集上精度提升了 4.12%，在测试集上提升了 9.84%。

Feb, 2024

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

利用视频描述学习视频问答

本文提出了一种可扩展的视频问答技术，利用自动生成的大量候选问题 - 答案对并使用自适应学习方法以处理其中存在的非理想数据，取得了优于基线模型的效果。

Nov, 2016

从图像到文本提示：使用 Frozen 大语言模型进行零样本 VQA

提出了 Img2Prompt 模块，它可以提供可以描述图像内容和自构建问题答案对的提示，并且能够帮助 LLMs 执行无需端到端训练的零射击 VQA 任务。

Dec, 2022

BeamSearchQA: 大型语言模型是强大的零样本问答求解器

本研究提出了一个名为 BeamSearchQA 的新型问题回答管道，它通过使用大型语言模型迭代地生成关于原始问题的新问题，从而启用一个迭代推理过程，以便更好地捕捉和利用隐藏知识。实验结果表明，BeamSearchQA 明显优于其他零 - shot 基线，在处理开放性领域问题回答方面具有很强的有效性。

May, 2023

从数百万个叙述视频中学习回答问题

本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集，并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明，在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上，该方法明显优于现有技术。

Dec, 2020