本文研究了 Audio-Visual Question Answering(AVQA)任务,提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题,结果表明我们的方法优于现有的 A-V 和 AVQA 方法。
Mar, 2022
本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。
May, 2023
本文提出 TVQA,一个基于 6 个流行电视节目的大规模视频问答数据集,共计包含 152,545 对 QA 对,分布在 21,793 个片段中,共涵盖了 460 小时的视频。该数据集中的问题具有组合性质,需要系统联合定位剪辑中的相关片段,理解基于字幕的对话,并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。
Sep, 2018
本文提出了三个特别设计用于视频 VQA 的新任务,推出一个新的大型数据集 TGIF-QA,并提出了一种利用空间和时间关注的双 LSTM 方法,证明其在经验评估中的有效性。
Apr, 2017
通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型(HOSTR),能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。
Jun, 2021
该研究论文介绍了一种开放式语义和语境视频定位模型,通过使用预训练的空间定位模型,克服了固定词汇和有限训练数据的限制,取得了在闭合式和开放式语境下的卓越性能。
Dec, 2023
本文提出了一种结构化的双流注意力网络(STA)来解决视频问答(VQA),该网络可以识别视频中的长时空结构和文本特征,并将视觉与文本融合以提供准确的答案,在大规模视频 QA 数据集 TGIF-QA 上实验表明,STA 可将 Action,Trans,TrameQA 和 Count 任务的最佳效果提高 13.0%,13.5%,11.0%和 0.3%,在 Action,Trans,TrameQA 任务上也比最佳竞争对手提高 4.1%,4.7%和 5.1%。
Jun, 2022
本文提出了一个基于循环神经网络的编码器 - 解码器方法,利用双通道排名损失来回答带有时间维度的选择题,同时探讨了 “填空题” 形式的方法来更细致地理解视频内容,并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明,我们的方法显著优于已有的基准模型。
Nov, 2015
通过建立一个新的名为 STComplEx 的 STKG 嵌入方法,从问题中提取时空信息,我们的 STCQA 模型可以更好地理解问题,并从 STKG 中检索准确答案。通过广泛的实验,我们展示了我们数据集的质量和我们 STKGQA 方法的有效性。
Feb, 2024
提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV),该方法通过时间戳字幕作为文本输入,将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示,以帮助跨模态交互,实现更好的文本跨度定位和匹配,该方法在医学操作数据集 MedVidQA 上表现优异,超越了其他 SOTA 方法。