通过问问题学习检索视频

May, 2022

Learning to Retrieve Videos by Asking Questions

Avinash Madasu, Junier Oliva, Gedas Bertasius

TL;DR提出了一种具备多轮对话交互能力的视频检索框架，该框架包括 AI agent、多模态问答生成器及信息指导监督器，实验表明其效果显著优于传统非交互方式的视频检索系统。

Abstract

The majority of traditional text-to-video retrieval systems operate in static environments, i.e., there is no interaction between the user and the agent beyond the initial textual query provided by the user. This can be sub-optimal if the initial query has ambiguities, which would lead

video retrieval dialog system ai agent multimodal question generator information-guided supervision

发现论文，激发创造

交互式视频检索与对话

本研究介绍了一种基于交互对话的视频检索系统，能够帮助用户在包含许多类似的视频中快速准确地找到目标视频，并通过 AVSD 数据集的实验证明了系统的有效性。

May, 2019

交互式视频检索中问题和答案的基本方法

通过使用 VideoQA 模型模拟用户交互，我们的研究提出了几种简单而有效的基准方法来进行问答式的交互视频检索，实验证明这种方法显著提高了基于文本的视频检索系统的性能。

Aug, 2023

对话至视频检索

本文提出了一种结合结构化对话信息的对话 - 视频检索系统，使用纯文本查询可以提高检索性能，使用对话作为查询可以更进一步地提高检索性能。

Mar, 2023

面向大规模视频库的检索增强生成

通过使用大型语言模型（LLM）生成搜索查询，检索由语音和视觉元数据索引的相关视频片段，并将用户查询与此元数据集成以生成具有特定视频时间戳的响应，我们提出了一种在视频库中应用检索增强生成（RAG）的可互操作体系结构，该方法公有多媒体内容检索和人工智能辅助视频内容创建中潜在应用。

Jun, 2024

基于对话的交互式图像检索

介绍了一种新的交互式图像检索方法，该方法允许用户通过自然语言提供反馈，形成了一个基于强化学习的对话系统，用于提高目标图像的排名，该方法在鞋类检索应用中表现出更好的准确性和更有效的检索结果。

May, 2018

学习检索有吸引力的后续查询

本文提出了一种基于检索的系统和相关数据集，用于预测用户可能有的下一个问题，可以主动地帮助用户进行知识探索，引导用户进行更有意义的对话。该检索系统是在一个包含 14000 多组信息获取对话的数据集上进行训练的，该数据集包含一个有效的后继问题和一组无效候选问题。我们在 Follow-up Query Bank 数据集上训练了排名模型，并比较了监督和无监督方法的结果。结果表明，我们可以通过将有效后继问题排在更高的位置上进行检索，但进一步的知识构建可以提高排名性能。

Feb, 2023

IntentVizor：面向通用查询引导的交互式视频摘要

本文介绍 IntentVizor，一种基于多模态查询的交互式视频摘要框架。通过使用我们所提出的一系列意图，我们设计了一个新型交互式视觉分析界面，并使用 GSE-GCN 来提高视频理解的摘要质量。我们针对两个基准数据集进行了实验，并与现有方法进行了比较，验证了该框架的有效性。

Sep, 2021

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。

Apr, 2024

通过实体为基础的策略学习和增强猜测器来增强视觉对话问答系统

在 Q-Bot-A-Bot 图像猜测游戏设置下，利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG)，这一方案在 VisDial v1.0 数据集上达到了最佳表现，能够提供更多视觉相关、丰富和连贯的问题。

Sep, 2021

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019