- 一瞥与聚焦:多事件视频问答的记忆提示
视频问答是评估智能体理解人类日常行为能力的重要工具,我们提出的 Glance-Focus 模型在复杂情境中基于事件记忆快速定位与问题相关的关键时刻进行推理,以在多种挑战性的推理任务中取得最先进的结果。
- MM视频问答的冗余感知 Transformer
这篇论文介绍了当前 VideoQA 中存在的两种冗余问题,并提出了一种新的基于 Transformer 的体系结构来解决这些问题,通过模拟 VideoQA 的冗余特点,该模型在多个 VideoQA 基准上取得了最先进的结果。
- CVPRANetQA:针对未修剪视频的细粒度组合推理的大规模基准测试
本研究介绍了 ANetQA,这是一个支持对挑战性非剪辑视频进行精细组成式推理的大规模基准测试。与现有的基准测试相比,它通过自动从预注释场景图中生成 QA 对,使得可以对多样化的推理能力进行粒度控制。与 AGQA 相比,ANetQA 的 QA - ICCV从网络视频中学习回答视觉问题
为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,W - IJCAI多尺度采样的分层多级网络用于视频问答
本研究提出了一种新的多级分层网络(MHN),结合多重时间尺度和深度学习模型的多层次处理能力,通过 Multiscale Sampling 实现逐层交互式的表示学习,从而实现视频问题回答中的视觉推理。
- AAAI视频问答的时域金字塔变换器和多模态交互
本文提出了一种基于时域金字塔变换器的多模交互模型,用于视频问答,实现了问题语义的建立和视频信息的推断,并在三个视频问答数据集上通过了广泛的实验证明了该方法相较于现有技术的卓越表现。
- 言之有据:基于视觉语境的话语表达
该研究关注如何将视觉内容整合到对话 AI 系统中,提出了一种基于视觉上下文的任务,利用在线教育视频数据集自动训练一个多模态视觉 - 语音预测模型,能够优于基于文本输入的基准模型,并在多个 VideoQA 基准测试中获得最先进的表现.
- 分层条件关系网络用于视频问答
通过介绍一种条件关系网络的方法来构建可复用神经元,用于视频中的表示和推理,并在 Well-known 的数据集上取得最新的状态技术,证明 CRN 对于视频问答等复杂域的表示和推理是成功的。
- AAAIActivityNet-QA: 通过问答理解复杂网络视频的数据集
本文介绍一种名为 ActivityNet-QA 的全新、已标注的大规模 VideoQA 数据集,以此作为基础,探讨了在长视频情境下提高 VideoQA 性能的各种视频表示方法和已有的 VideoQA 基准测试的比较方法。
- MarioQA:通过观看游戏玩法视频来回答问题
本文提供了一个分析影片问答模型的框架,并利用可自定义的合成数据集对其进行分析,以了解对视频事件的时间依赖性进行推理的能力,验证了数据集中包含不同复杂度事件的重要性,以学习有效模型并改善整体性能。