每张图片都有一个故事：基于图像的可控风格故事生成

COLINGSep, 2022

每张图片都有一个故事：基于图像的可控风格故事生成

Every picture tells a story: Image-grounded controllable stylistic story generation

Holy Lovenia, Bryan Wilie, Romain Barraud, Samuel Cahyawijaya, Willy Chung...

TL;DR本文通过加入预训练模型 CLIP 和 GPT-2 解决数据稀缺性问题，加入风格适配器控制故事生成，尝试解决从图像到故事的生成难题，实现了包括非风格化、浪漫和动作等多种风格的故事生成。结果表明，该方法改善了故事的连贯性和图像与故事的相关性，但风格仍有待改进。

Abstract

Generating a short story out of an image is arduous. Unlike image captioning, story generation from an image poses multiple challenges: preserving the story coherence, appropriately assessing the quality of the story, steering the generated story into a certain style, and addressing the scarcity of image-story pair reference datasets limiting supervision dur

image-to-story generation story coherence data scarcity problem clip gpt-2

发现论文，激发创造

具有风格引导计划的风格化故事生成

本文提出了一个新的任务 —— 风格化故事生成，即在给定前导的情况下生成带有指定风格的故事，并提出了一种新颖的生成模型来解决这个问题，该模型首先规划出风格化关键词，然后在关键词的指导下生成整个故事。此外，提出了两种自动度量标准来评估所生成的故事与指定风格之间的一致性。实验证明，我们的模型能够根据 ROCStories 数据集（Mostafazadeh et al.，2016）可控地生成情感驱动或事件驱动的故事，为进一步研究风格化故事生成提供了见解。

May, 2021

AutoStory: 以最小化人力投入生成多样化的故事图像

自动化故事可视化系统通过大规模语言模型的理解和规划能力进行布局规划，然后利用大规模文本到图像模型生成基于布局的复杂故事图像，通过密集条件生成模块将简单边界框布局转换为草图或关键点控制条件增加生成图像质量和简便的用户交互，同时提出了一种简单而有效的多视角一致的角色图像生成方法，消除了依赖人力收集或绘制角色图像的需求。

Nov, 2023

纯文本训练视觉叙事

利用跨模态预训练的 CLIP 模型，结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器，提出了一种仅使用文本数据进行训练的视觉叙事方法，有效提高了视觉叙事的泛化能力。在 VIST 基准上进行的广泛实验以及表达多样性和人工评估的进一步评估结果，都突显了我们方法在信息丰富性和稳健性方面的优越性。

Aug, 2023

基于人物角色的故事生成系统：利用策划好的图像序列激发创作

本研究设计了一种新的图像故事生成数据集 Visual Writing Prompts，通过众包方式收集与每个图像序列对应的 12K 个故事，并基于角色一致性提出了一种新的故事生成模型，与现有技术相比，生成的故事更为连贯、有更强的叙述性和视觉基础。

Jan, 2023

生成艺术家：一种语义感知和可控的 CLIP 样式转换器

本文介绍了一种基于预训练的 CLIP 文本 - 图像嵌入模型和 FCN 语义分割网络的图像风格转移框架，其中 Generative Artisan 解决了 CLIPstyler 的失败情况，并在肖像和包含人物的实景中获得了比 CLIPstyler 更好的定量和定性结果，使得商业场景如修图图形软件成为可能。

Jul, 2022

心理学引导的可控故事生成

本文介绍了一种由心理学理论指导的可控故事生成系统（PICS），采用全局心理状态链和心理状态跟踪器和规划器来生成更可控和规划良好的故事，自动和手动评估表明 PICS 胜过基准。

Oct, 2022

基于角色模型的故事生成：我讲故事的方式

本研究探讨了基于神经生成的不同人格特征的视觉故事生成，通过在编码器和解码器表示中添加人格来引导生成，提出了五种模型，并使用五种不同的人格进行实验，结果表明我们的模型在生成目标人格的故事时表现更好。

Jun, 2019

保持一致性：通过迭代多智能体通信从图像流中进行主题感知的故事叙述

本研究提出了一种新的视觉叙述方法，引入话题描述任务来检测图像流的全局语义背景，并通过多代理通信框架将话题描述生成器与故事生成器合并学习，实验结果表明该方法在生成故事方面具有比现有方法更高的质量。

Nov, 2019

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

TaleCrafter: 多角色交互式故事可视化

本文提出了一个通用的交互式故事可视化系统，该系统涵盖了故事到提示生成，文本到布局生成，可控文本到图像生成和图像到视频动画四个组件，允许用户处理多个新角色和灵活修改布局与结构。

May, 2023