迭代视频 - 文本共同标记的视频问答
本文提出了一个基于循环神经网络的编码器 - 解码器方法,利用双通道排名损失来回答带有时间维度的选择题,同时探讨了 “填空题” 形式的方法来更细致地理解视频内容,并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明,我们的方法显著优于已有的基准模型。
Nov, 2015
该研究提出了一种新的预训练方法,利用多项选择问题建立视频和文本之间的语义联系以实现更高效的检索,其结果在不同实验设置下如零成本和微调等多种数据集上均优于现有方法。
Jan, 2022
我们提出了一种名为 RTQ(Refine,Temporal model 和 Query)的新型框架,同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战,这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是,即使在无视频语言预训练的情况下,我们的模型也表现出色,并且结果与或优于最先进的预训练方法。
Dec, 2023
本文提出了一种高效的基于现有的视觉 - 语言预训练模型的视频问答方法,该方法将视频帧连接成 $n imes n$ 的矩阵,从而将图像编码器的使用量从 $n^2$ 减少到 1,保持了原始视频的时间结构。实验结果表明,我们的方法在 MSRVTT 和 TrafficQA 数据集上取得了与当前最佳方法相同甚至更好的性能,速度快近 4 倍,使用的内存仅占现有方法的 30%,能够节省计算资源。
May, 2023
本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集,并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明,在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上,该方法明显优于现有技术。
Dec, 2020
使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法,通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文,从而降低了视频令牌的数量,消除了噪音干扰,并提高了系统性能。
Dec, 2023
本文提出了一种利用 Contrastive Language-Image Pre-training(CLIP)作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后,利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取,并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息,将特征集成用于迁移学习,结果表明这种方法优于现有的最先进方法。
Mar, 2023
为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,WebVidVQA3M 和 iVQA 等不同数据集,结果表明在多个数据集上其结果优秀。
May, 2022
本文提出了一种新的端到端可训练的视频问答(VideoQA)框架,包含三个主要组成部分:新的异构内存、重设计的问题内存和新的多模式融合层,其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案,实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。
Apr, 2019