Jun, 2024

ShareGPT4Video: 提升视频理解与生成,优化字幕

TL;DR通过稠密和精确的字幕,在大视频 - 语言模型(LVLMs)的视频理解和文本 - 视频模型(T2VMs)的视频生成方面,我们提出了 ShareGPT4Video 系列,该系列包括 40K GPT4V 标注的各种长度和来源的视频稠密字幕,通过精心设计的数据过滤和注释策略进行开发,以及有效的任意视频字幕模型 ShareCaptioner-Video 和卓越的 LVLM ShareGPT4Video-8B。