通过问题学习在视频语料库中定位视觉答案
本文提出了一种跨模态互相知识传递的跨模态互知跨度本地化方法 (MutualSL),它包含视觉预测器和文本预测器两个部分,旨在通过构建一种双向动态损失函数以调整传递比例来提高语义知识的理解,以获取视频中自然语言问题的相关和简明时间剪辑答案。实验结果表明,该方法优于其他竞争同类方法,展示了其有效性。
Oct, 2022
提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV),该方法通过时间戳字幕作为文本输入,将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示,以帮助跨模态交互,实现更好的文本跨度定位和匹配,该方法在医学操作数据集 MedVidQA 上表现优异,超越了其他 SOTA 方法。
Mar, 2022
本文提出了一种利用 Contrastive Language-Image Pre-training(CLIP)作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后,利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取,并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息,将特征集成用于迁移学习,结果表明这种方法优于现有的最先进方法。
Mar, 2023
为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,WebVidVQA3M 和 iVQA 等不同数据集,结果表明在多个数据集上其结果优秀。
May, 2022
本文提出一种基于常识感知的跨模态对齐框架,通过从语料库中提取结构化语义信息,设计跨模态交互模块获得桥接式视觉和文本特征,并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上,证明该方法能够以高速运行,且表现优于现有的方法。
Apr, 2022
本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法,利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题,并通过 VSLNet-L 模型进一步提高性能。实验结果表明,该方法优于现有方法,VSLNet-L 可以解决长时间视频性能衰退的问题。
Feb, 2021
介绍新的数据集和任务,旨在促进医疗视频的理解与自然语言问题的视觉回答,并以这两项任务为重心,提供跨模态(医疗语言和医学视频)的理解挑战。这些任务和数据集有助于推动支持公众和医务人员受益的下游应用程序的发展,并已通过医学信息学专家的验证和修正。
Jan, 2022
本文提出了基于跨度问答的视频段定位网络(VSLNet)作为自然语言视频定位(NLVL)任务的解决方案,并通过有效的查询引导突出显示策略解决了 NLVL 与跨度问答之间的差异。在三个基准数据集上的实验表明,该方法优于现有的最优方法,采用笔画问答框架是解决 NLVL 的一个有前途的方向。
Apr, 2020
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试,语言指导使得 CLIP 的性能提高了 7.6%,BLIP-2 的性能提高了 4.8%;使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。
Oct, 2023