CVPRMar, 2019

视频中的话语解析:一种多模态方法

TL;DR本文提出 Visual Discourse Parsing 任务,通过识别视频场景来了解视频中场景之间的话语关系,并提出了一种不需要显式身份识别和注释场景的方法识别视觉话语线索。通过构建包含 310 个视频和相应话语线索的新数据集评估所提出的方法,这可能有助于诸如 Visual Dialog 和 Visual Storytelling 等领域的多学科 AI 问题的解决。