Dec, 2023

VLAP: 通过帧提示和蒸馏实现高效视频 - 语言对齐用于视频问答

TL;DR我们提出了一种高效的视频 - 语言对齐方法(VLAP),通过帧提示和蒸馏来实现。我们的 VLAP 模型以统一的方式解决了有效的帧采样和有效的跨模态对齐问题。与之前的工作相比,我们的 VLAP 模型在选择具有关键内容的关键帧的能力方面表现出色,从而提高了视频 - 语言对齐的准确性,同时降低了推理延迟。在视频问答基准测试中,我们的 VLAP 网络优于最先进的方法。