从网络视频中学习回答视觉问题

ICCVMay, 2022

Learning to Answer Visual Questions from Web Videos

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid

TL;DR为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

Abstract

Recent methods for visual question answering rely on large-scale annotated datasets. Manual annotation of questions and answers for videos, however, is tedious, expensive and prevents scalability. In this work, we propose to avoid manual annotation and generate a large-scale

visual question answering training dataset automatic cross-modal supervision question generation transformer videoqa

发现论文，激发创造

从数百万个叙述视频中学习回答问题

本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集，并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明，在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上，该方法明显优于现有技术。

Dec, 2020

教学视频问题回答数据集

提出了一种新的基于教学视频的问题回答任务，并介绍了一个包含约 6000 个三元组的数据集（视频，问题，回答跨度），并使用几个基准算法对其进行了实验，从而得出该任务的挑战性并呼吁探索新算法。

Dec, 2019

利用视频描述学习视频问答

本文提出了一种可扩展的视频问答技术，利用自动生成的大量候选问题 - 答案对并使用自适应学习方法以处理其中存在的非理想数据，取得了优于基线模型的效果。

Nov, 2016

TVQA: 本地化、组合式视频问答

本文提出 TVQA，一个基于 6 个流行电视节目的大规模视频问答数据集，共计包含 152,545 对 QA 对，分布在 21,793 个片段中，共涵盖了 460 小时的视频。该数据集中的问题具有组合性质，需要系统联合定位剪辑中的相关片段，理解基于字幕的对话，并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。

Sep, 2018

视频问答的近期进展：数据集和方法回顾

本综述探讨了最近新兴的计算机视觉领域中的视频问答任务，重点回顾了一些方法和数据集，并指出此任务以前没有进行过综述。

Jan, 2021

YTCommentQA: 教学视频中的视频问题可回答性

展示了 YTCommentQA 数据集，该数据集包含了 YouTube 上自然生成的问题，按照其可回答性和回答所需的模态进行分类，实验结果突出了在视频推理中视觉和脚本信息的综合作用。

Jan, 2024

利用多任务学习获取多模态视频问答的额外监督

该研究提出通过多任务学习获得额外监督的方法，解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成，通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督，并提出多任务比率调度的方法进行训练。实验结果表明，该方法在公开数据集 TVQA 上实现了最先进的效果。

May, 2019

视频问答：数据集、算法和挑战

本文针对 VideoQA 展开研究，提出了一个明确的分类学和全面的分析方法，并指出未来探索的几个有前途的方向。

Mar, 2022

利用冻结的双向语言模型实现零样本视频问答

本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法，它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合，通过屏蔽的语言模型进行零样本视频问答推理，相较于目前现有的方法，在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上，取得了显著的优势，同时在少样本和完全监督的情况下也表现出了有竞争力的结果。

Jun, 2022

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023