Jun, 2024

加强视频语言表示的结构时空对齐

TL;DR通过精细化的结构化时空对齐学习方法(Finsta),将输入的文本和视频以细粒度场景图(SG)结构表示,进而统一为整体性 SG(HSG),从而加强语义和时序的视频 - 语言对齐,提高大规模视频 - 语言模型(VLMs)在各种下游任务中的性能。