通过问题学习在视频语料库中定位视觉答案

Oct, 2022

通过问题学习在视频语料库中定位视觉答案

Learning to Locate Visual Answer in Video Corpus Using Question

Bin Li, Yixuan Weng, Bin Sun, Shutao Li

TL;DR本论文介绍一项新的任务，即视频语料库视觉答案定位（VCVAL），旨在使用自然语言问题在大量未剪辑的指导视频中定位视觉答案，并提出了一种跨模态对比全跨度（CCGS）方法来解决 VCVAL 问题，并在 MedVidCQA 数据集上测试了该方法，结果表明该方法在视频语料库检索和视觉答案定位子任务中的表现优于其他竞争方法，可以帮助我们更好地理解指导视频的内容，为后续研究铺平了一条新的道路。

Abstract

We introduce a new task, named video corpus visual answer localization (VCVAL), which aims to locate the visual answer in a large collection of untrimmed →

video corpus visual answer localization cross-modal contrastive global-span medvidcqa instructional videos

发现论文，激发创造

跨模态相互知识迁移的视觉答案定位

本文提出了一种跨模态互相知识传递的跨模态互知跨度本地化方法 (MutualSL)，它包含视觉预测器和文本预测器两个部分，旨在通过构建一种双向动态损失函数以调整传递比例来提高语义知识的理解，以获取视频中自然语言问题的相关和简明时间剪辑答案。实验结果表明，该方法优于其他竞争同类方法，展示了其有效性。

Oct, 2022

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

从网络视频中学习回答视觉问题

为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

May, 2022

基于常识的快速视频时间对齐细节文本对齐学习

本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法。

Apr, 2022

对比学习视频语料库瞬间检索

本文提出了一个可用于视频语料库时刻检索的检索和定位网络，采用对比学习优化视频编码器和文本编码器，从而实现视频轮廓时序信息检索。该方法效率高且具有可比性。

May, 2021

基于跨度问答框架的自然语言视频定位再探讨

本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法，利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题，并通过 VSLNet-L 模型进一步提高性能。实验结果表明，该方法优于现有方法，VSLNet-L 可以解决长时间视频性能衰退的问题。

Feb, 2021

用于医疗教学视频分类和问答的数据集

介绍新的数据集和任务，旨在促进医疗视频的理解与自然语言问题的视觉回答，并以这两项任务为重心，提供跨模态（医疗语言和医学视频）的理解挑战。这些任务和数据集有助于推动支持公众和医务人员受益的下游应用程序的发展，并已通过医学信息学专家的验证和修正。

Jan, 2022

面向自然语言视频定位的基于 Span 的本地化网络

本文提出了基于跨度问答的视频段定位网络（VSLNet）作为自然语言视频定位（NLVL）任务的解决方案，并通过有效的查询引导突出显示策略解决了 NLVL 与跨度问答之间的差异。在三个基准数据集上的实验表明，该方法优于现有的最优方法，采用笔画问答框架是解决 NLVL 的一个有前途的方向。

Apr, 2020

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试，语言指导使得 CLIP 的性能提高了 7.6%，BLIP-2 的性能提高了 4.8%；使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。

Oct, 2023