在线行动理解的记忆与预测变换器
ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务,能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。
Oct, 2022
我们提出了一种多模态预测变压器(MAT)架构,它使用来自多模态特征和文本字幕的信息来预测未来的动作。通过对预训练阶段的动作描述和模态特征融合期间检测到的对象和动作的文本输入进行扩展实验,我们评估了预训练阶段的有效性,并在所有数据集上展示了我们模型的优势。此外,我们还评估了通过文本获取的对象和动作信息的影响,并进行了广泛的消融实验。在 EpicKitchens-100、EpicKitchens-55 和 EGTEA GAZE + 三个数据集上评估表现,结果显示文本描述确实有助于更有效的动作预测。
Jan, 2024
提出了一种全新的基于注意力机制的动作预测模型,称为 Future Transformer (FUTR),它能够学习全局的视频动作信息,以预测长达数分钟的未来动作序列,和传统的自回归模型相比,FUTR 可以更准确、更快速地进行长期预测。在两个标准数据集 Breakfast 和 50Salads 上进行了实验,FUTR 模型取得了最新的最优结果。
May, 2022
本篇论文提出了一种行动预测模型,受人类神经结构的启发,在预测未来视觉和时间表现方面,能够预测合理的未来行动,并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合,该模型在多个数据集上优于当前最先进的方法。
Dec, 2019
本文提出了一种新的动作预测方法,该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了 22.0%(JHMDB-21),14.0%(UT-Interaction),和 49.9%(UCF-101)的准确率。
Mar, 2017
通过结合动作预测和在线动作检测,我们提出了一种统一的模型 JOADAA,能够覆盖在线动作检测中未来信息的缺失依赖关系,并在 THUMOS'14、CHARADES 和 Multi-THUMOS 三个具有挑战性的数据集上取得了最优结果。
Sep, 2023
提出了一种名为 AVT 的模型,它是一种基于注意力机制的端到端视频建模架构,通过关注之前观察过的视频来预测未来的动作,通过在训练时同时预测视频序列中的下一个动作。与现有的时序汇聚策略相比,AVT 在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性,这对于预测任务非常关键。通过广泛的实验,该研究表明 AVT 在四个流行的动作预测基准测试中达到了最佳性能:EpicKitchens-55、EpicKitchens-100、EGTEA Gaze + 和 50-Salads;并在 EpicKitchens-100 CVPR'21 挑战赛中获得了第一名。
Jun, 2021
本文提出一个名为 TTPP 的框架,使用 Transformer 风格的架构,通过汇总观察到的特征,并利用轻量的网络逐步预测未来的特征和行动,来解决当前流行的基于循环神经网络的视频行动预测模型中无法有效捕获长期信息的缺点,在三个数据集上的广泛结果表明,TTPP 不仅胜过现有技术方法,而且更有效。
Mar, 2020
本文提出了一种使用动态图像和定制损失函数的生成模型来预测人类行为的方法,该方法在三个基准测试中相较于现有的最佳方法增强了 4% 至 5.2% 的预测准确性。
Aug, 2018