Sep, 2023

ATM:视频问答的动作时间建模

TL;DR通过动作时间建模(ATM),在视频问答(VideoQA)中引入了对因果 / 时间推理跨帧的问题,并通过重新思考光流的有效性、以行为为中心的对比学习和防止模型在微调阶段给出对洗牌视频的回答来实现了时序推理。实验证明,ATM 在多个 VideoQA 任务的准确性方面优于先前方法,并展示了更好的真实时间推理能力。