ICCVAug, 2023
交互式视频检索中问题和答案的基本方法
Simple Baselines for Interactive Video Retrieval with Questions and Answers
Kaiqu Liang, Samuel Albanie
TL;DR通过使用 VideoQA 模型模拟用户交互,我们的研究提出了几种简单而有效的基准方法来进行问答式的交互视频检索,实验证明这种方法显著提高了基于文本的视频检索系统的性能。
Abstract
To date, the majority of video retrieval systems have been optimized for a
"single-shot" scenario in which the user submits a query in isolation, ignoring
previous interactions with the system. Recently, there has been renewed
interest in →
video retrieval systemsinteractive systemsquestion-answeringvideoqa modeltext-based video retrieval systems
发现论文,激发创造
通过问问题学习检索视频
提出了一种具备多轮对话交互能力的视频检索框架,该框架包括 AI agent、多模态问答生成器及信息指导监督器,实验表明其效果显著优于传统非交互方式的视频检索系统。
May, 2022
重访视觉问答基线模型
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
展示、询问、关注和回答:视觉问答的强大基线
本文介绍了一种新的视觉问答任务的基线模型,它可以根据图像的内容和自然语言的问题准确地产生答案,并取得了在不平衡和平衡的 VQA 基准测试中的最新成果。
Apr, 2017
视觉问答的简单基线
提出了用于视觉问题回答的简单词袋基线模型,使用来自问题的单词特征和图像的 CNN 特征进行拼接以预测答案并在挑战性的 VQA 数据集上显示了与许多最新方法使用递归神经网络相当的性能。同时提供了交互式 Web 演示和开源代码以探索模型的优缺点。
Dec, 2015
从图像池中挖掘答案:走向基于检索的视觉问答
本文介绍了一种针对多张图片中远程问答的视觉问答模型,并提出了一个名为 RETVQA 的具有多图和检索需求的新数据集,使用 MI-BART 模型在该数据集上取得了良好的表现。
Jun, 2023