Dec, 2023

大型语言模型作为一致的故事可视化器

TL;DRStoryGPT-V 使用潜在扩散和大语言模型的优点,生成具有一致且高质量角色的图像,通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异,并具有较低的内存消耗。