从网络视频中学习回答视觉问题
本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集,并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明,在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上,该方法明显优于现有技术。
Dec, 2020
提出了一种新的基于教学视频的问题回答任务,并介绍了一个包含约 6000 个三元组的数据集(视频,问题,回答跨度),并使用几个基准算法对其进行了实验,从而得出该任务的挑战性并呼吁探索新算法。
Dec, 2019
本文提出 TVQA,一个基于 6 个流行电视节目的大规模视频问答数据集,共计包含 152,545 对 QA 对,分布在 21,793 个片段中,共涵盖了 460 小时的视频。该数据集中的问题具有组合性质,需要系统联合定位剪辑中的相关片段,理解基于字幕的对话,并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。
Sep, 2018
展示了 YTCommentQA 数据集,该数据集包含了 YouTube 上自然生成的问题,按照其可回答性和回答所需的模态进行分类,实验结果突出了在视频推理中视觉和脚本信息的综合作用。
Jan, 2024
该研究提出通过多任务学习获得额外监督的方法,解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成,通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督,并提出多任务比率调度的方法进行训练。实验结果表明,该方法在公开数据集 TVQA 上实现了最先进的效果。
May, 2019
本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法,它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合,通过屏蔽的语言模型进行零样本视频问答推理,相较于目前现有的方法,在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上,取得了显著的优势,同时在少样本和完全监督的情况下也表现出了有竞争力的结果。
Jun, 2022
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性,评估它们对未来数据分布的性能。分析模型架构,识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性,这些数据可以增强 VQA 模型的稳健性,使其未来的同行能够更好地适应时间分布的变化。
Jul, 2023