电影问答：我们是否在问正确的问题？

ICCVNov, 2019

电影问答：我们是否在问正确的问题？

Are we asking the right questions in MovieQA?

Bhavan Jasani, Rohit Girdhar, Deva Ramanan

TL;DR本研究探讨电影问答数据集中存在的语言偏见，提出一个简单的模型，通过合适的词向量训练，能够在不考虑视频和字幕等故事情境的情况下，通过观察问题和答案来回答约一半的问题。与排行榜上发表的最佳论文相比，我们的简单问题 + 答案模型在视频 + 字幕类别精度提高了 5％，在字幕、DVS 和剧本方面精度更是提高了 15％，这表明使用适当的词向量训练能够大大提高问答准确度。

Abstract

Joint vision and language tasks like visual question answering are fascinating because they explore high-level understanding, but at the same time, can be more prone to language biases. In this paper, we explore

visual question answering language biases movieqa dataset word embedding question + answer only model

发现论文，激发创造

电影问答：通过问题回答理解电影故事

MovieQA 数据集旨在评估从视频和文本中自动理解故事。该数据集包含大量关于 408 部电影的 14,944 个问题，是多种信息源的独特组合 —— 视频剪辑，情节，字幕，脚本和 DVS 等。研究人员对其进行了统计和方法分析，可扩展为现有 QA 技术，以展示具有这种开放式语义的问答是困难的。

Dec, 2015

学习视觉问答的答案嵌入

该研究提出了一种新的概率模型，用于视觉问答中的多项选择，将嵌入视觉、问答和回答，并考虑到回答之间的语义关系，从而提高了对新问题的表现。

Jun, 2018

探索图像问答模型和数据

本研究旨在通过新的模型和数据集解决基于图像的问答问题，使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案，提出了一种将图片描述转化为问答格式的问题生成算法，为新的数据集提供了基线结果。

May, 2015

通过语义角色的短语实现视频问答

本研究提出使用视频描述中的语义角色来在模型评估中引入填充短语任务，以改进现有的 VidQA 模型评估方式，并构建了 ActivityNet-SRL-QA 和 Charades-SRL-QA 数据集，通过扩展三种视觉语言模型进行了基准测试，并且进行了大量分析和研究以指导未来的研究工作。

Apr, 2021

视频问答中对话的隐藏宝藏

该研究提出了一种新方法，通过将对话汇总成文本描述的方式，摆脱人工制作的来源，以理解整个故事，从而使得视频问答系统在不使用特定问题的人类注释或人工情节概述的情况下在 KnowIT VQA 数据集上明显胜过现有技术，并且甚至胜过从未观看过整个剧集的人类评估者。

Mar, 2021

视频问答：数据集、算法和挑战

本文针对 VideoQA 展开研究，提出了一个明确的分类学和全面的分析方法，并指出未来探索的几个有前途的方向。

Mar, 2022

通过文本理解视频场景：来自基于文本的视频问答的洞察

研究人员广泛研究了视觉和语言领域，发现理解场景需要理解视觉和文字内容，特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集，NewsVideoQA 和 M4-ViteVQA，这两个数据集旨在通过文字内容进行视频问答。NewsVideoQA 数据集包含与新闻视频中的文本相关的问答对，而 M4-ViteVQA 包含来自不同类别（如视频博客、旅游和购物）的问答对。我们在各个层面上分析了这些数据集的构建情况，探讨了回答问题所需的视觉理解和多帧理解的程度。此外，本研究还进行了与仅文本模型 BERT-QA 的实验，结果显示在这两个数据集上，BERT-QA 的表现与原始方法相当，指示了这些数据集构建上的不足之处。此外，我们还探讨了域适应方面的问题，通过在 M4-ViteVQA 上进行训练并在 NewsVideoQA 上进行评估以及反之，从而探讨了跨领域训练的挑战和潜在好处。

Sep, 2023

使用自然语言的语言 - 视觉嵌入学习以理解电影

本文研究了三种不同的联合语言 - 视觉神经网络模型，使用 LSMDC16 电影数据集评估模型在自然语言图像 / 视频注释和检索任务中的性能，并在标准排名和多项选择测试中取得优异的结果。

Sep, 2016

TVQA: 本地化、组合式视频问答

本文提出 TVQA，一个基于 6 个流行电视节目的大规模视频问答数据集，共计包含 152,545 对 QA 对，分布在 21,793 个片段中，共涵盖了 460 小时的视频。该数据集中的问题具有组合性质，需要系统联合定位剪辑中的相关片段，理解基于字幕的对话，并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。

Sep, 2018

跨语言视觉问答深入探究

该研究探讨了跨语言视觉问答的许多方面，包括输入数据、微调和评估方法，研究了不同多语言多模态变压器下不同问题类型的交互。该研究还针对训练数据和模型进行了广泛的分析，旨在进一步了解为什么在某些问题类型和语言中仍存在零 - shot 效果差距，从而指导多语言 VQA 的进一步发展。

Feb, 2022