Feb, 2024
递归字幕:对小时长视频的递归字幕
Video ReCap: Recursive Captioning of Hour-Long Videos
TL;DR我们提出了Video ReCap,一种递归视频字幕模型,可以处理时长从1秒到2小时的视频输入,并在多个层次结构水平输出视频字幕。通过利用不同的视频层次结构之间的协同作用,我们的递归视频-语言架构可以高效地处理长达数小时的视频。我们还通过增加8,267个手动收集的长范围视频摘要来引入Ego4D-HCap数据集。我们的递归模型可以灵活地生成不同层次结构的字幕,同时也适用于其他复杂的视频理解任务,如基于EgoSchema的VideoQA。