Jun, 2024

电影故事多语种概要:用于故事理解的数据集

TL;DR构建大规模多语言视频故事数据集 M-SYMON,包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果,在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点,证明了注释的有效性。同时,我们提供了六种具有不同多语言训练策略的基线方法,比较它们在单语内和跨语言设置中的性能,展示了多语言视频文本对齐的挑战。