CVPRMay, 2024

无损的预期行动:使用大型视频语言模型进行可实现动作预测

TL;DR通过引入 PlausiVL,我们开发了一个大规模视频语言模型,提供了在现实世界中可能发生的行动序列的能力,并引入了两个客观函数,即基于反事实的可行动作序列学习损失和长时程行动重复损失,用以探讨行动序列的可行性。我们通过利用时态逻辑约束和动词 - 名词动作对逻辑约束来创建不可信 / 反事实行动序列,并使用这些序列以合理动作序列学习损失训练模型,以便模型区分可行和不可行的行动序列,并学习隐含的针对行动预测任务的时间暗示。长时程行动重复损失对于在更长的时间窗口内容易重复的动作施加更高的惩罚,增强模型生成多样且可行的行动序列能力。我们在两个大规模数据集(Ego4D 和 EPIC-Kitchens-100)上评估了我们的方法,并在行动预测任务中取得了显著改善。