Oct, 2023

视频 CSR: 复杂视频摘要生成用于视觉 - 语言模型

TL;DR我们提出了一个新的任务和人类标注的数据集,用于评估视觉语言模型对于生成视频剪辑的标题和摘要的能力,该数据集包含了 4800 个 YouTube 视频剪辑,时长在 20-60 秒之间,涵盖了广泛的主题和兴趣,对于视觉和听觉内容都进行了基于摘要的检索任务和基于标题和摘要的生成任务的评估,并提出了一个基础模型作为 Video-CSR 任务的基准,旨在成为大型语言模型和复杂多模态任务时代的有用评估集。