CVPRJun, 2023

LLMVA-GEBC: 带通用事件边界字幕视频适配器的大型语言模型

TL;DR本文详细介绍了我们在 CVPR 2023 通用事件边界字幕(GEBC)比赛中的得奖作品,提出了 LLMVA-GEBC 模型,该模型采用预训练 LLM 生成高质量的人类式字幕,在训练固定的视觉特征提取和 LLM 同时采用视频 Q-former 作为适配器以适应 GEBC 任务,最终在测试集上取得了 76.14 分的高得分并获得了第一名 。