Openstory++:一种针对实例感知的开放域视觉叙事的大规模数据集和基准
首个序列视觉语言数据集的发布,这个数据集中包含81,743张唯一图片和20,211个序列,旨在探讨其在视觉叙事任务中的应用,建立多个强劲的基础模型以及推动基于自动度量标准的进展,为模拟具象和比喻、社交语言提供了可能,从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。
Apr, 2016
本文提出了一个计算创意视觉叙述的管道和任务模块, 用于构建一个具有不同环境, 基于叙述目标的变异和面向受众的故事叙述能力的计算机视觉技术, 并分析了收集的数据并描述了此方法向自动化的计划。
Jul, 2018
研究了一种生成序列图像以可视化故事的任务,提出了改进方法包括双路学习框架、复制-转换机制和基于MART的transformer模型,并提供了相应的评价指标和对这些指标的直观检验。
May, 2021
本文讨论如何更好地将文本转化为对应的图像序列,包括利用Transformers、constituency parse trees、commonsense信息以及visuo-spatial信息,最终提高了生成图像的质量和一致性。
Oct, 2021
本文提出了一种基于生成模型的auto-regressive image generator,用于在文本提示和前一个图像的条件下生成连贯的图像序列作为开放式视觉叙事,并介绍了一个名为StorySalon的新的数据集构建流程。实验证明,该模型在图像质量、风格一致性、内容一致性和视觉-语言对齐等方面具有显著优越性。
Jun, 2023
利用跨模态预训练的CLIP模型,结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器,提出了一种仅使用文本数据进行训练的视觉叙事方法,有效提高了视觉叙事的泛化能力。在VIST基准上进行的广泛实验以及表达多样性和人工评估的进一步评估结果,都突显了我们方法在信息丰富性和稳健性方面的优越性。
Aug, 2023
从文本提示中生成视频故事是一项复杂的任务,需要高质量的视觉效果,视频需要根据文本提示的顺序进行逼真的呈现,而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足,我们在三个现有数据集上收集全面的人工注释,并引入了StoryBench:一个新的、具有挑战性的多任务基准,可可靠地评估即将推出的文本到视频模型。我们的基准包括三个逐渐增加难度的视频生成任务:动作执行,即从条件视频开始生成下一个动作;故事延续,即从条件视频开始执行一系列动作;以及故事生成,即仅从文本提示生成视频。我们评估了一些小而强大的文本到视频基线,并展示了根据现有视频标题算法生成的类似故事的数据进行训练的好处。最后,我们为人工评估视频故事建立了指南,并重申了对于视频生成而言更好的自动度量指标的需求。StoryBench旨在鼓励未来在这个令人兴奋的新领域中的研究。
Aug, 2023
StoryGPT-V使用潜在扩散和大语言模型的优点,生成具有一致且高质量角色的图像,通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异,并具有较低的内存消耗。
Dec, 2023
StoryImager是一个双向的、统一的、高效的框架,通过增强继承于预训练的文本到图像模型的storyboard生成能力实现双向生成。具体而言,我们引入了一种目标框架掩码策略来扩展和统一不同的故事图像生成任务。此外,我们提出了一种框架-故事交叉注意力模块,用于分解交叉注意力以实现局部保真度和全局一致性。此外,我们设计了一个上下文特征提取器,从整个故事线中提取上下文信息。广泛的实验结果证明了我们的StoryImager具有出色的性能。
Apr, 2024
DreamStory是一个自动的开放域故事可视化框架,通过利用LLMs和一种新的多主题一致的扩散模型,生成一致的多主题图像序列。
Jul, 2024