Jun, 2024

ShareGPT4Video: 提升视频理解与生成,优化字幕

TL;DR通过稠密和精确的字幕,在大视频-语言模型(LVLMs)的视频理解和文本-视频模型(T2VMs)的视频生成方面,我们提出了ShareGPT4Video系列,该系列包括40K GPT4V标注的各种长度和来源的视频稠密字幕,通过精心设计的数据过滤和注释策略进行开发,以及有效的任意视频字幕模型ShareCaptioner-Video和卓越的LVLM ShareGPT4Video-8B。