ICCVSep, 2023

人类中心视频中基于知识引导的短上下文动作预测

TL;DR本文通过将符号性知识图谱融入变换网络,提高了视频段期望动作的预测准确性,从而加快了编辑工作流程,并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上,我们的方法在使用短视频上下文进行长期动作预测方面,超过了现有最先进方法高达 9%。