ACLMay, 2023

VSTAR:一个基于视频的对话数据集,用于具有场景和主题转换的情境语义理解

TL;DR本文提出了一个基于 VSTAR 数据集的视频对话理解的基准测试,其中包括场景分割、主题分割和视频对话生成三个基准测试,以验证多模态信息和段落在视频对话理解和生成中的重要性。