- ICCV开放式词汇视频问答:评估视频问答模型的通用性的新基准
提出了 Open-vocabulary Video Question Answering(OVQA)基准测试,旨在通过考虑罕见和未知的答案来衡量 VideoQA 模型的泛化能力,并引入一种改进了模型泛化能力的新型 GNN-based sof - 关键词感知的视频问答的相对时空图网络
该论文提出了一种关键词感知的相对时空图网络(KRST)用于视频问答,通过在问题编码过程中使用注意机制让问题特征对关键词敏感,指导视频图构建,并整合了相对关系建模以更好地捕捉物体节点之间的时空动态,实验证明 KRST 方法在多个现有方法上具有 - ICCV发现视频问答的时空原理
本论文旨在解决复杂的视频问答问题,针对长时间包含多个对象和事件的视频,通过提出时空合理化和 TranSTR 等方法,成功地在多个数据集上取得了新的最先进结果。
- 基于交通领域的自动字幕视频问答
论文提出一种名为 TRIVIA 的新方法,将交通领域的知识融入到大型视频语言模型中,通过弱监督技术实现交通领域的视频问题回答,与传统设置相比,提高了代表性视频语言模型的准确率 6.5 个百分点(19.88%)。
- 在道路上阅读:文本视频问答
在驾驶员辅助环境下,通过提取和利用视频流中的视觉和文本线索以及时间推理,研究了场景文本识别和视频问答,以提升驾驶安全和多模态问题回答效果。
- 通过冻结大型语言模型实现零样本视频问答
本研究提出一种简单而有效的 Retrieving-to-Answer 框架,通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本,再与问题一起使用大型语言模型产生答案,可以在多个 VideoQA 基准测试中达到较高水平,并且 - CVPR多元化的联合视觉 - 语言标记化学习
建立跨图片和文本的联合表示是视觉问答和视频问答等任务的重要步骤。本研究发现,这些表示不仅必须同时捕捉两种模态的特征,而且还应具有多样性,以获得更好的泛化性能。为此,提出了通过多样化分词学习过程的联合视觉语言表示学习,可以学习来自两种模态的足 - VLAB: 通过特征调整和混合增强视频语言预训练
本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法,通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型,验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。
- IJCAITG-VQA:三元游戏视频问答
本研究尝试通过博弈论的交互策略来实现细粒度的视频问答任务中的视觉语义对齐,无需过多的标注,相比现有方法,在长期和短期视频问答数据集上的效果有显著提升,并具有良好的泛化能力和在有限数据上的并行收敛能力。
- 自链接图像语言模型用于视频定位和问答
本文提出了一种新框架 SeViLA,该框架利用单个图像 - 语言模型同时解决视频中的时间关键帧定位和问答,并通过双向链式推断和自我精炼解决了一些昂贵的标注问题,实现了五项视频 QA 和事件预测任务的最佳性能。
- 视频问答的视觉因果场景细化
本文提出一种名为 VCSR 的跨模态因果关系推理框架,通过因果分析发现视频中关键的因果事件,解决了现有视频问答方法在识别视觉证据和问题方面的失败。实验表明,该方法在视频问答中表现出卓越的性能。
- 学习视频问答的情境超图
本研究提出了一种基于情境超图的视频问答(SHG-VQA)架构,通过训练超图解码器来预测情境超图,并使用超图和问题嵌入的交叉注意力来预测正确答案,结果表明,学习底层情境超图可以显著提高系统对于视频问答任务的新型挑战的性能。
- 使用 CLIP 引导的视觉文本注意力进行视频问答
本文提出了一种利用 Contrastive Language-Image Pre-training(CLIP)作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后,利用 - CVPR连接视觉和语言:基于视频本地化叙述的研究
本文提出了一种新形式的多模态视频注释方法:基于视频的定位叙事。在此方法中,注释员不仅可以说出视频中发生的事件,而且还可以使用鼠标追踪分段来定位句子的表示部分。同时,作者采用了该方法对三个数据集中的 20,000 个视频进行了注释,并提供了视 - AAAI具有金字塔式多模态变换器的高效端到端视频问答
本文提出了一种新的端到端视频问答方法,使用金字塔多模态变换器(PMT)模型实现视频语言交互,通过使用异性金字塔在不同的时空尺度上实现跨视频语言交互,并在保持本地和全局语义完整性的同时,将视频特征流分解为空间和时间子流,并实现它们与语义的交互 - EMNLPCRIPP-VQA: 通过视频问答进行关于隐含物理属性的反事实推理
介绍了 CRIPP-VQA 数据集,该数据集包含具有物理性质的场景中物体运动的视频并配有各种类型的问题,强调了隐含属性问题和明确属性问题的巨大性能差距。
- EMNLPLiteVL:增强空间 - 时间建模的高效视频 - 语言学习
本文提出 LiteVL 模型,结合 BLIP 图像语言模型,通过使用动态时态缩放,给图像编码器添加时间注意力模块,并提出非参数池化机制,以自适应地重新加权文本条件下的细粒度视频嵌入,取得了良好的性能,即使没有进行任何视频 - 语言预训练。
- ECCV10 位视频:为高效和隐私而设计的少位视频问答系统
本文介绍了如何使用轻量级的特征压缩模块(FeatComp)来实现 Few-Bit VideoQA 任务,该模块通过学习提取 10 位的任务特定特征,在保证精度的同时比 MPEG4 编码的视频节省了 10 万倍的存储空间,并降低了数据隐私风险 - ECCV迭代视频 - 文本共同标记的视频问答
本文提出了一种新型的多流视频编码器,使用多个视频输入和新的视频文本迭代共同标记方法来回答与视频相关的各种问题,同时将所需的 GFLOPs 从 150-360 减少到只有 67,实现了高效的视频问答模型,并在 MSRVTT-QA,MSVD-Q - MM视频问答的等变性和不变性基础
视频问答是回答关于视频的自然语言问题的任务。本文提出了一种自我解释的框架 EIGV,通过同时强制性地处理问题关键线索和忽略问题不相关的信息,将问题的答案与环境信息区分开来,明确呈现出视频和语言之间的相互作用,并且在三个基准数据集上进行的广泛