Jul, 2024

多模态大型语言模型改进视觉叙述

TL;DR借助大型语言模型和大型视觉语言模型的指导调整,本文提出了一种新颖方法来解决视觉故事生成中的困难,通过组合图像和叙述来创造具有吸引力和丰富上下文的故事,实验结果表明,本方法在叙述连贯性、相关性、情感深度和总体质量等方面明显优于现有模型,凸显了指导调整和大型语言模型/视觉语言模型在推进视觉故事的潜力。