Jul, 2024
SEED-Story:利用大型语言模型进行多模式长篇故事生成
SEED-Story: Multimodal Long Story Generation with Large Language Model
TL;DR使用多模态大型语言模型(MLLM)提出了SEED-Story,一种新颖的方法,用于生成扩展的多模态故事。模型基于MLLM的强大理解能力,预测文本和视觉标记,并通过适应的视觉解标记器处理视觉标记以生成具有一致的字符和风格的图像。还提出了多模态注意力池机制,以高效的自回归方式生成高达25个序列(仅使用10个进行训练)的故事。此外,还提供了一种名为StoryStream的大规模高分辨率数据集,用于训练模型并在各个方面定量评估多模态故事生成任务。