CVPRJun, 2023
LLMVA-GEBC: 带通用事件边界字幕视频适配器的大型语言模型
LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning
Yunlong Tang, Jinrui Zhang, Xiangchen Wang, Teng Wang, Feng Zheng
TL;DR本文详细介绍了我们在 CVPR 2023 通用事件边界字幕(GEBC)比赛中的得奖作品,提出了 LLMVA-GEBC 模型,该模型采用预训练 LLM 生成高质量的人类式字幕,在训练固定的视觉特征提取和 LLM 同时采用视频 Q-former 作为适配器以适应 GEBC 任务,最终在测试集上取得了 76.14 分的高得分并获得了第一名 。