EMNLPOct, 2020

视频与语言未来事件预测:下一步可能发生什么?

TL;DR本文提供名为 VLEP 的视频和语言事件预测数据集,并探讨 AI 模型是否能够学习进行这样的多模态常识性下一个事件预测。研究表明,视频、对话和常识性知识对于此挑战任务很有用,并且与 VLEP 上高人类表现相比,我们的模型提供了一个良好的起点,但仍有大量的改进空间。