Dec, 2023

Shot2Story20K:多割视频全面理解的新基准测试

TL;DR通过一个多镜头视频理解基准(Shot2Story20K)的详细镜头级标题和全面视频摘要,提供了一种更好的视频语义理解方法,包括可视化信号和人类叙述的标题,摘要,检索以及摘要生成,这将显著提升现有视频理解任务的性能,并促进了视频理解中对详细摘要的未开发研究领域。