无损的预期行动：使用大型视频语言模型进行可实现动作预测

CVPRMay, 2024

无损的预期行动：使用大型视频语言模型进行可实现动作预测

Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

Himangi Mittal, Nakul Agarwal, Shao-Yuan Lo, Kwonjoon Lee

TL;DR通过引入 PlausiVL，我们开发了一个大规模视频语言模型，提供了在现实世界中可能发生的行动序列的能力，并引入了两个客观函数，即基于反事实的可行动作序列学习损失和长时程行动重复损失，用以探讨行动序列的可行性。我们通过利用时态逻辑约束和动词 - 名词动作对逻辑约束来创建不可信 / 反事实行动序列，并使用这些序列以合理动作序列学习损失训练模型，以便模型区分可行和不可行的行动序列，并学习隐含的针对行动预测任务的时间暗示。长时程行动重复损失对于在更长的时间窗口内容易重复的动作施加更高的惩罚，增强模型生成多样且可行的行动序列能力。我们在两个大规模数据集（Ego4D 和 EPIC-Kitchens-100）上评估了我们的方法，并在行动预测任务中取得了显著改善。

Abstract

We introduce plausivl, a large video-language model for anticipating action sequences that are plausible in the real-world. While significant efforts have been made towards anticipating future actions, prior appr

plausivl video-language model plausible action sequences counterfactual-based plausible action sequence learning loss long-horizon action repetition loss

发现论文，激发创造

AntGPT：大型语言模型能否帮助从视频中进行长期动作预测？

通过利用大型语言模型，我们提出了一种用于长期动作预测的两阶段框架 AntGPT，能够在人机交互中对未来行为进行准确预测，并且取得了最新的研究成果。

Jul, 2023

LALM：基于语言模型的长期行动预测

使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位，通过整合动作识别模型与视觉 - 语言模型，利用过去的事件信息进行动作预测，达到了在不同复杂活动中的泛化能力。

Nov, 2023

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Jan, 2022

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

Vamos: 视频理解的多功能行为模型

在研究中，我们提出了一种基于大型语言模型的学习框架，使用视频中提取的动作标签和自由形式的描述作为输入，证明了基于文本的视频表示在语言模型时代具有竞争力的表现，并在多个基准测试中取得了最先进的性能。

Nov, 2023

2023 Ego4D 长期行动预测挑战技术报告

本报告描述了我们在 Ego4D 長期動作預測挑战赛 2023 中的技术细节，我们引入了三个改进，包括 SlowFast 和 SlowFast-CLIP 模型的集合，放松未来动作的顺序限制，以及基于词共现的操作类（动词、名词）的预测，优化了基线性能，取得了公共排行榜的第二名。

Jul, 2023

预测未来：联合学习模型用于行动预测

本篇论文提出了一种行动预测模型，受人类神经结构的启发，在预测未来视觉和时间表现方面，能够预测合理的未来行动，并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合，该模型在多个数据集上优于当前最先进的方法。

Dec, 2019

视频与语言未来事件预测：下一步可能发生什么？

本文提供名为 VLEP 的视频和语言事件预测数据集，并探讨 AI 模型是否能够学习进行这样的多模态常识性下一个事件预测。研究表明，视频、对话和常识性知识对于此挑战任务很有用，并且与 VLEP 上高人类表现相比，我们的模型提供了一个良好的起点，但仍有大量的改进空间。

Oct, 2020

通过对抽象目标的建模预测下一步行动

使用可变循环网络，结合视觉表示来提取目标信息，设计了一种抽象目标，用于减少人类行为预测中的不确定性，实验结果在多个数据集上达到了最新的最佳表现。

Sep, 2022