Feb, 2024

递归字幕:对小时长视频的递归字幕

TL;DR我们提出了 Video ReCap,一种递归视频字幕模型,可以处理时长从 1 秒到 2 小时的视频输入,并在多个层次结构水平输出视频字幕。通过利用不同的视频层次结构之间的协同作用,我们的递归视频 - 语言架构可以高效地处理长达数小时的视频。我们还通过增加 8,267 个手动收集的长范围视频摘要来引入 Ego4D-HCap 数据集。我们的递归模型可以灵活地生成不同层次结构的字幕,同时也适用于其他复杂的视频理解任务,如基于 EgoSchema 的 VideoQA。