交互式视频检索中问题和答案的基本方法

ICCVAug, 2023

交互式视频检索中问题和答案的基本方法

Simple Baselines for Interactive Video Retrieval with Questions and Answers

Kaiqu Liang, Samuel Albanie

TL;DR通过使用 VideoQA 模型模拟用户交互，我们的研究提出了几种简单而有效的基准方法来进行问答式的交互视频检索，实验证明这种方法显著提高了基于文本的视频检索系统的性能。

Abstract

To date, the majority of video retrieval systems have been optimized for a "single-shot" scenario in which the user submits a query in isolation, ignoring previous interactions with the system. Recently, there has been renewed interest in →

video retrieval systems interactive systems question-answering videoqa model text-based video retrieval systems

发现论文，激发创造

交互式视频检索与对话

本研究介绍了一种基于交互对话的视频检索系统，能够帮助用户在包含许多类似的视频中快速准确地找到目标视频，并通过 AVSD 数据集的实验证明了系统的有效性。

May, 2019

通过问问题学习检索视频

提出了一种具备多轮对话交互能力的视频检索框架，该框架包括 AI agent、多模态问答生成器及信息指导监督器，实验表明其效果显著优于传统非交互方式的视频检索系统。

May, 2022

对话至视频检索

本文提出了一种结合结构化对话信息的对话 - 视频检索系统，使用纯文本查询可以提高检索性能，使用对话作为查询可以更进一步地提高检索性能。

Mar, 2023

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016

展示、询问、关注和回答：视觉问答的强大基线

本文介绍了一种新的视觉问答任务的基线模型，它可以根据图像的内容和自然语言的问题准确地产生答案，并取得了在不平衡和平衡的 VQA 基准测试中的最新成果。

Apr, 2017

视觉问答的简单基线

提出了用于视觉问题回答的简单词袋基线模型，使用来自问题的单词特征和图像的 CNN 特征进行拼接以预测答案并在挑战性的 VQA 数据集上显示了与许多最新方法使用递归神经网络相当的性能。同时提供了交互式 Web 演示和开源代码以探索模型的优缺点。

Dec, 2015

从图像池中挖掘答案：走向基于检索的视觉问答

本文介绍了一种针对多张图片中远程问答的视觉问答模型，并提出了一个名为 RETVQA 的具有多图和检索需求的新数据集，使用 MI-BART 模型在该数据集上取得了良好的表现。

Jun, 2023

使用 CLIP 的视频检索简明框架

本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示，而不需要用户注释，这一技术扩展应用于视频检索中取得了最先进的结果。

Feb, 2021

利用视频描述学习视频问答

本文提出了一种可扩展的视频问答技术，利用自动生成的大量候选问题 - 答案对并使用自适应学习方法以处理其中存在的非理想数据，取得了优于基线模型的效果。

Nov, 2016

多查询视频检索

本篇论文主要探讨了多查询视频检索技术，可以有效弥补现有数据集中存在的不完善的注释问题，并提出了多个优化方法，以提高模型的检索能力及泛化性。

Jan, 2022