视频与语言未来事件预测：下一步可能发生什么？

EMNLPOct, 2020

视频与语言未来事件预测：下一步可能发生什么？

What is More Likely to Happen Next? Video-and-Language Future Event Prediction

Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal

TL;DR本文提供名为 VLEP 的视频和语言事件预测数据集，并探讨 AI 模型是否能够学习进行这样的多模态常识性下一个事件预测。研究表明，视频、对话和常识性知识对于此挑战任务很有用，并且与 VLEP 上高人类表现相比，我们的模型提供了一个良好的起点，但仍有大量的改进空间。

Abstract

Given a video with aligned dialogue, people can often infer what is more likely to happen next. Making such predictions requires not only a deep understanding of the rich dynamics underlying the video and dialogue

multimodal commonsense event prediction dataset dialogue

发现论文，激发创造

SPOT！重新审视视频语言模型用于事件理解

利用网络爬取的大规模视频 - 文本对数据作为弱监督，视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题，通过提出 SPOT Prober 方法并进行实验证明，通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。

Nov, 2023

语言模型可通过少量示例引入推理，从而提高事件预测能力

本文研究了大型语言模型在实际事件中实现推理的能力，设计了一个建模和预测框架，其中大型语言模型执行推断，以协助事件序列模型提高预测准确性，并通过在 Amazon Review 和 GDELT 两个具有挑战性的实际数据集上进行的广泛实验，展示了我们的框架的性能优势。

May, 2023

多模态新闻理解与专业标注视频

通过对 ReutersViLNews 数据集进行大规模分析，我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战，并提供了未来解决 ReutersViLNews 数据集的方法。

Jan, 2024

走向面向事件的长视频理解

通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集 Event-Bench 以及使用合并的、事件密集型视频指令来增强视频 MLLMs 的低成本方法 VIM，本研究表明 GPT-4o 模型超过了最佳开源模型 41.42％，在 Event-Bench 上表现出 53.33 的整体准确率，优于最先进的开源模型和 GPT-4V。

Jun, 2024

逐帧思考：使用视频填充和预测评估视频思维链

为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度，我们提出了 VideoCOT 的新研究方向，旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集，其中包含各种现实生活视频和场景描述，以及两个新的视频推理任务：视频填充和场景预测，评估了各种视觉语言模型在 VIP 上的表现，证明了利用视觉语言模型和 LLM 提高视频链推理的潜力。

May, 2023

以视频为新语言进行现实世界决策

通过视频生成模型，利用视频数据解决现实世界中的任务是一个被低估的机会，可以在机器人、自动驾驶和科学等领域产生重大影响，但需要解决视频生成中的关键挑战。

Feb, 2024

基于事件理解的视频数据集综述

通过调查 105 个需要事件理解能力的视频数据集，我们考虑它们对视频中鲁棒事件理解研究的贡献，并评估在这一研究领域中提出的视频事件提取任务，提出了基于调查结果的数据集策划和任务构建建议，特别强调视频事件的时间特性和视觉内容的歧义性。

Jun, 2024

事件预测的序列到序列学习

本文提出了一种使用双向多层递归神经网络进行序列到序列学习的方法，以预测文本中前一句的事件描述。我们的方法在来自 WikiHow 和 DeScript 两个数据集中的 BLEU 得分方面显着优于先前的研究。由于 BLEU 得分不易解释为事件预测的度量标准，因此我们结合第二个评估，利用事件的黄金释义集的丰富语言注释来补充我们的研究。

Sep, 2017

对比微调生成式脚本事件预测方法

本文提出了一种基于事件中心预训练的生成式方法，其使用预先训练的语言模型 Fine-Tune 并通过对序列可能性的预测进行预测，从而软建模事件之间的关联。

Dec, 2022

基于示例指导的视频预测

本研究提出了一个简单而有效的框架，可以通过利用前序训练数据中的潜在分布来预测合理的未来态势。该框架融合了一种新颖的优化方案，并且在量化和定性方面的实验中得到了显著的提高。同时，我们的方法可以与现有的随机预测模型无缝集成，具有预测未见类别运动的潜力。

Jul, 2020