跨模态相互知识迁移的视觉答案定位

Oct, 2022

跨模态相互知识迁移的视觉答案定位

Visual Answer Localization with Cross-modal Mutual Knowledge Transfer

Yixuan Weng, Bin Li

TL;DR本文提出了一种跨模态互相知识传递的跨模态互知跨度本地化方法 (MutualSL)，它包含视觉预测器和文本预测器两个部分，旨在通过构建一种双向动态损失函数以调整传递比例来提高语义知识的理解，以获取视频中自然语言问题的相关和简明时间剪辑答案。实验结果表明，该方法优于其他竞争同类方法，展示了其有效性。

Abstract

The goal of visual answering localization (VAL) in the video is to obtain a relevant and concise time clip from a video as the answer to the given natural language question. Early methods are based on the interaction modelling between video and text to predict the visual answer by the

visual answering localization cross-modal mutual knowledge transfer natural language question dynamic loss function semantic knowledge understanding

发现论文，激发创造

通过问题学习在视频语料库中定位视觉答案

本论文介绍一项新的任务，即视频语料库视觉答案定位（VCVAL），旨在使用自然语言问题在大量未剪辑的指导视频中定位视觉答案，并提出了一种跨模态对比全跨度（CCGS）方法来解决 VCVAL 问题，并在 MedVidCQA 数据集上测试了该方法，结果表明该方法在视频语料库检索和视觉答案定位子任务中的表现优于其他竞争方法，可以帮助我们更好地理解指导视频的内容，为后续研究铺平了一条新的道路。

Oct, 2022

C2KD: 跨语言跨模态知识蒸馏在多语言文本 - 视频检索中的应用

本研究提出了一种跨语言跨模态知识蒸馏的方法，使用跨语言文本数据训练学生模型，以匹配用英语文本数据训练的教师模型的跨模态预测。通过引入新的多语言视频数据集 Multi-youcook2 验证了该方法的有效性。

Oct, 2022

跨语言视觉问答深入探究

该研究探讨了跨语言视觉问答的许多方面，包括输入数据、微调和评估方法，研究了不同多语言多模态变压器下不同问题类型的交互。该研究还针对训练数据和模型进行了广泛的分析，旨在进一步了解为什么在某些问题类型和语言中仍存在零 - shot 效果差距，从而指导多语言 VQA 的进一步发展。

Feb, 2022

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

基于跨度问答框架的自然语言视频定位再探讨

本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法，利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题，并通过 VSLNet-L 模型进一步提高性能。实验结果表明，该方法优于现有方法，VSLNet-L 可以解决长时间视频性能衰退的问题。

Feb, 2021

自链接图像语言模型用于视频定位和问答

本文提出了一种新框架 SeViLA，该框架利用单个图像 - 语言模型同时解决视频中的时间关键帧定位和问答，并通过双向链式推断和自我精炼解决了一些昂贵的标注问题，实现了五项视频 QA 和事件预测任务的最佳性能。

May, 2023

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

基于知识的视觉问答的跨模态检索

基于知识的视觉问答（VQA）涉及使用多模态知识库的信息检索，命名实体的多样化视觉表现使其难以识别，我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距，对单模态检索产生互补作用，通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验，我们提供了经验证据。此外，我们研究了三种不同的模型微调策略：单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索，与三个数据集上的数十亿参数模型相竞争，同时在概念上更简单、计算上更廉价。

Jan, 2024

利用多任务学习获取多模态视频问答的额外监督

该研究提出通过多任务学习获得额外监督的方法，解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成，通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督，并提出多任务比率调度的方法进行训练。实验结果表明，该方法在公开数据集 TVQA 上实现了最先进的效果。

May, 2019

跨语言视觉问答

本文提出了 xGQA，一个用于跨语言视觉问答任务的新的多语言评估基准，并使用适配器方法将多模型变换器模型扩展为多语言模型，结果表明简单的跨语言模型转移会导致多语言多模态失配，需要更复杂的方法来进行跨语言视觉和多语言语言建模

Sep, 2021