通过文本理解视频场景：来自基于文本的视频问答的洞察

Sep, 2023

通过文本理解视频场景：来自基于文本的视频问答的洞察

Understanding Video Scenes through Text: Insights from Text-based Video Question Answering

Soumya Jahagirdar, Minesh Mathew, Dimosthenis Karatzas, C. V. Jawahar

TL;DR研究人员广泛研究了视觉和语言领域，发现理解场景需要理解视觉和文字内容，特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集，NewsVideoQA 和 M4-ViteVQA，这两个数据集旨在通过文字内容进行视频问答。NewsVideoQA 数据集包含与新闻视频中的文本相关的问答对，而 M4-ViteVQA 包含来自不同类别（如视频博客、旅游和购物）的问答对。我们在各个层面上分析了这些数据集的构建情况，探讨了回答问题所需的视觉理解和多帧理解的程度。此外，本研究还进行了与仅文本模型 BERT-QA 的实验，结果显示在这两个数据集上，BERT-QA 的表现与原始方法相当，指示了这些数据集构建上的不足之处。此外，我们还探讨了域适应方面的问题，通过在 M4-ViteVQA 上进行训练并在 NewsVideoQA 上进行评估以及反之，从而探讨了跨领域训练的挑战和潜在好处。

Abstract

Researchers have extensively studied the field of vision and language, discovering that both visual and textual content is crucial for understanding scenes effectively. Particularly, comprehending text in videos holds great significance, requiring both scene text understanding and temp

vision and language video question answering newsvideoqa m4-vitevqa domain adaptation

发现论文，激发创造

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

提升文本 - 视觉问答中的文本表达

通过结合 TextVQA 和 VQA 数据集，我们提出了一种方法，在文本和图像特征之间增加了理解和关联性，从而提高了对问题的回答准确性。

Aug, 2023

在道路上阅读：文本视频问答

在驾驶员辅助环境下，通过提取和利用视频流中的视觉和文本线索以及时间推理，研究了场景文本识别和视频问答，以提升驾驶安全和多模态问题回答效果。

Jul, 2023

知识型视频问答：回答基于知识的问题

本研究提出了一种新颖的视频理解任务方法，将基于知识的问题回答融合进来，提出了一个关于情景喜剧的视频数据集 (包括 24,282 个由人类生成的问题 - 答案对)，该数据集融合了视觉、文本和时间的连贯思维，同时也需要观看该系列影片的体验知识才能回答基于知识的问题。其次，本文提出了一种能够将视觉和文本视频内容与与剧集相关的具体知识相结合的视频理解模型。主要发现是：（i）融入知识可在视频问答方面产生卓越的改进；（ii）关于现有视频建模的局限性，表明 “KnowIT VQA” 仍远远落后于人类的准确度，因此具有较高的研究价值。

Oct, 2019

ICDAR 2019 场景文本视觉问答竞赛

本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集，包括 23038 张图像和 31791 个文本实例答案，涵盖广泛的情景。该竞赛共有 3 个递增的任务，需要理解场景中的文本并回答问题。提出了一种新的评估度量标准，旨在评估文本识别和图像理解两种关键能力。结果分析提供了 VQA 系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。

Jun, 2019

RTQ：基于图文模型重新思考视频语言理解

我们提出了一种名为 RTQ（Refine，Temporal model 和 Query）的新型框架，同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战，这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是，即使在无视频语言预训练的情况下，我们的模型也表现出色，并且结果与或优于最先进的预训练方法。

Dec, 2023

从网络视频中学习回答视觉问题

为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

May, 2022

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

电影问答：通过问题回答理解电影故事

MovieQA 数据集旨在评估从视频和文本中自动理解故事。该数据集包含大量关于 408 部电影的 14,944 个问题，是多种信息源的独特组合 —— 视频剪辑，情节，字幕，脚本和 DVS 等。研究人员对其进行了统计和方法分析，可扩展为现有 QA 技术，以展示具有这种开放式语义的问答是困难的。

Dec, 2015

面向能够阅读的 VQA 模型

我们研究了盲人用户在看不到图片的情况下经常关注的图像内容，即图片中的文本，并介绍了一种名为 LoRRA 的新模型用于解决这个问题，同时提出了一个名为 TextVQA 的数据集来评估和改进模型表现。

Apr, 2019