Mar, 2024
MovieLLM:使用 AI 生成的影片增强长视频理解能力
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies
Zhende Song, Chenchen Wang, Jiamu Sheng, Chi Zhang, Gang Yu...
TL;DRMovieLLM 提出了一种新颖的框架,利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉,从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题,显著提高了多模态模型对复杂视频叙事的理解能力,克服了现有数据集的限制。