通过故事讲述栩栩如生的故事：一个富有表达力和流畅的多模式讲故事者

Mar, 2024

通过故事讲述栩栩如生的故事：一个富有表达力和流畅的多模式讲故事者

Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal Storyteller

Chuanqi Zang, Jiji Tang, Rongsheng Zhang, Zeng Zhao, Tangjie Lv...

TL;DR基于图像流生成合理和生动的故事情节的多模态的人类水平故事生成方法 LLaMS 通过充分利用 LLM 中的常识知识，首先采用序列数据自动增强策略来增强实际内容表达，并利用文本推理架构进行表达性故事生成和预测；其次，我们提出故事插图生成的 SQ-Adapter 模块来保持序列一致性。通过人工评估验证了 LLaMS 提出方法的优越性，与之前的 SOTA 方法相比具有最先进的故事性能，具有 86% 的相关性和 100% 的一致性胜率。此外，还进行了消融实验以验证所提出的序列数据增强和 SQ-Adapter 的有效性。

Abstract

storytelling aims to generate reasonable and vivid narratives based on an ordered image stream. The fidelity to the image story theme and the divergence of story plots attract readers to keep reading. Previous works iteratively improved the alignment of multiple modalities but ultimate

storytelling multimodal expressiveness consistency llams

发现论文，激发创造

从文字到世界：将一行提示转化为沉浸式多模态数字故事的沟通式 LLM 代理

StoryAgent 框架利用大型语言模型和生成工具自动化和完善数字叙事，通过自上而下的故事起草和自下而上的资源生成方法解决手动介入、交互式场景编排和叙事连贯性等关键问题，实现了跨多种形式的交互式、连贯的故事高效制作，使内容创作更具民主性并增强参与度，而且无需参考视频，标志着自动化数字叙事的重大进展。

Jun, 2024

保持一致性：通过迭代多智能体通信从图像流中进行主题感知的故事叙述

本研究提出了一种新的视觉叙述方法，引入话题描述任务来检测图像流的全局语义背景，并通过多代理通信框架将话题描述生成器与故事生成器合并学习，实验结果表明该方法在生成故事方面具有比现有方法更高的质量。

Nov, 2019

大型语言模型作为一致的故事可视化器

StoryGPT-V 使用潜在扩散和大语言模型的优点，生成具有一致且高质量角色的图像，通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异，并具有较低的内存消耗。

Dec, 2023

基于生成对抗模仿学习的多模态叙事

本文提出了一种基于多模态模仿学习生成对抗网络（MIL-GAN）的方法，直接将用户的兴趣建模为各种数据所反映的用户展示故事情节，以此解决了故事情节度量的核心挑战，该方法能够获取用户的隐含意图，并通过用户研究大幅优于现有方法。

Dec, 2017

智能格林童话 —— 基于潜在扩散模型的开放式视觉叙事

本文提出了一种基于生成模型的 auto-regressive image generator，用于在文本提示和前一个图像的条件下生成连贯的图像序列作为开放式视觉叙事，并介绍了一个名为 StorySalon 的新的数据集构建流程。实验证明，该模型在图像质量、风格一致性、内容一致性和视觉 - 语言对齐等方面具有显著优越性。

Jun, 2023

迭代故事感知字幕与大型语言模型相结合的相册讲故事

通过应用大型语言模型和迭代式流水线算法，可以更准确和生动地生成关于相册故事的文字，而不失准确性和连贯性。

May, 2023

极大预训练语言模型能否通过少量示例学习叙事？

本文对使用 VLPLMs 和 SOTA 模型在三个不同的数据集上进行的故事生成能力进行了自动和人为评估，结果表明 VLPLMs 生成的故事比其他故事生成模型更高质量，有一定程度上的过人之处，但也揭示了在涉及世界知识的情况下容易 “抄袭” 真实故事的现象。

Jan, 2023

从叙事的语义表示中生成不同的故事

本文介绍了一种将 Scheherazade 故事意图图转换成人物 NLG 引擎所需输入的自动方法，使用 36 个 Aesop 寓言进行测试，结果表明我们可以生成正确内容，平均与 Scheherazade 实现器的输出接近。

Aug, 2017

超越文字：多模态训练提升语言模型在真实性和伦理方面的能力

多模态大型语言模型（MLLMs）训练基于大型语言模型（LLM），具备理解多模态输入和生成文本响应的增强能力。本研究表明，视觉指导调整在纯自然语言处理（NLP）环境中意外且有趣地帮助模型实现了改进的真实性和道德一致性。

Sep, 2023

借助解答集编程指导和多样化基于 LLM 的故事生成

使用回答集编程（ASP）的高层次和抽象符号规范引导和多样化基于 LLM 的故事生成，产生比未引导的 LLM 更多样化的故事，并通过代码摘录证明 ASP-based outline generation 相较于完整的叙事规划具有改进的紧凑性和灵活性。

Jun, 2024