ATM:视频问答的动作时间建模
通过提出 atemporal probe 模型,本文探讨了视频和语言任务中现有的模型的局限性和潜力,并发现即使在面向较深层次视频理解的基准测试中,理解事件时间通常也不是实现强大或最新技术的性能所必需的。
Jun, 2022
介绍了 NExT-QA,它是一个具有严谨设计的视频问答基准,旨在将视频理解从描述转化为解释时间动作;通过分析基线和现有的视频问答技术,发现表现最好的方法擅长浅层场景描述,但在因果和时间动作推理方面较弱。通过详细结果和启发式观察,希望 NExT-QA 能引导下一代视频问答研究超越表面的场景描述,实现对视频更深入的理解。
May, 2021
本文提出了一个基于循环神经网络的编码器 - 解码器方法,利用双通道排名损失来回答带有时间维度的选择题,同时探讨了 “填空题” 形式的方法来更细致地理解视频内容,并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明,我们的方法显著优于已有的基准模型。
Nov, 2015
提出了一种基于完全连接的时间条件随机场模型,用于推理各个活动方面,包括对象、动作和意图,其中潜在函数由深层网络预测;而异步变分推理方法使得高效的端到端训练成为可能,该方法在 Charades 基准测试中达到了 22.4%的分类 mAP,超过了现有技术 (17.2%mAP)。
Dec, 2016
本文提出了一种名为 VQK-Net 的网络,它采用了视频特异性的查询 - 键(query-key)注意力建模,通过学习每个输入视频每个动作类别的唯一查询来检测目标视频中的相应动作并定位,从而实现弱监督的时间动作定位,并在 THUMOS14,ActivityNet1.2 和 ActivityNet1.3 三个数据集上获得了最先进的性能结果。
May, 2023
本文介绍了一种基于 Temporal Query Network 的时空查询机制,通过稠密采样与随机特征库更新方式实现了对细粒度行为的分类,最终在 FineGym 和 Diving48 的数据集上达到了当前最佳效果。
Apr, 2021
提出了一种基于运动 - 外观共现记忆网络的视频问答方法,采用动态记忆网络和新机制,在长序列中推断不同问题所需的帧数,利用多级上下文事实构建时间表示,并在 TGIF-QA 数据集上表现出明显优越性。
Mar, 2018
在研究中,我们提出了一种基于大型语言模型的学习框架,使用视频中提取的动作标签和自由形式的描述作为输入,证明了基于文本的视频表示在语言模型时代具有竞争力的表现,并在多个基准测试中取得了最先进的性能。
Nov, 2023
通过计算加法、减法、乘法和除法等四种算术运算,提取帧特征产生辅助时间线索,利用这些线索从原时间无关域中提取对应特征,从而实现简化的时间建模。我们的研究表明,这种算术时间模块 (ATM) 在低计算成本下提供了强大的时间建模能力,并且与基于 CNNs 和 ViTs 的架构兼容,在几个常见视频基准测试上取得了优越的性能。
Jul, 2023