通过语义角色的短语实现视频问答
本文提出了一种语义感知的动态回顾 - 前瞻推理方法,用于视频问答,通过使用问题的语义角色标注(SRL)结构,实现了基于语义连接的复杂推理,在 TrafficQA 数据集上实验结果显示,相较于之前的最先进模型,该方法实现了卓越的性能提升。
May, 2023
本研究探讨电影问答数据集中存在的语言偏见,提出一个简单的模型,通过合适的词向量训练,能够在不考虑视频和字幕等故事情境的情况下,通过观察问题和答案来回答约一半的问题。与排行榜上发表的最佳论文相比,我们的简单问题 + 答案模型在视频 + 字幕类别精度提高了 5%,在字幕、DVS 和剧本方面精度更是提高了 15%,这表明使用适当的词向量训练能够大大提高问答准确度。
Nov, 2019
提出了 Open-vocabulary Video Question Answering(OVQA)基准测试,旨在通过考虑罕见和未知的答案来衡量 VideoQA 模型的泛化能力,并引入一种改进了模型泛化能力的新型 GNN-based soft verbalizer。
Aug, 2023
自动驾驶领域长期以来面临着公众接受度低的问题,本研究通过视频问答的自然语言处理为决策过程提供了可解释性,同时引入了 LingoQA 基准测试集以填补评估视频问答模型性能的空白,并通过与人工评估的 0.95 斯皮尔曼相关系数进行了验证,其次还提出了一个包含 419,000 个样本的中央伦敦视频问答数据集,建立了基线视觉 - 语言模型,并进行了大量的消融分析以评估其性能。
Dec, 2023
展示了 YTCommentQA 数据集,该数据集包含了 YouTube 上自然生成的问题,按照其可回答性和回答所需的模态进行分类,实验结果突出了在视频推理中视觉和脚本信息的综合作用。
Jan, 2024
本研究提出一种简单而有效的 Retrieving-to-Answer 框架,通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本,再与问题一起使用大型语言模型产生答案,可以在多个 VideoQA 基准测试中达到较高水平,并且无需跨模态微调。
Jun, 2023