SCO-VIST: 基于社交互动常识知识的视觉叙事

Feb, 2024

SCO-VIST: 基于社交互动常识知识的视觉叙事

SCO-VIST: Social Interaction Commonsense Knowledge-based Visual Storytelling

Eileen Wang, Soyeon Caren Han, Josiah Poon

TL;DRSCO-VIST 框架使用图表示形式，结合语义和基于发生的边权重，通过 Floyd-Warshall 算法生成视觉叙事。在多个指标上，该框架在视觉根植性、连贯性、多样性和人性上优于其他模型，经过自动和人工评估。

Abstract

visual storytelling aims to automatically generate a coherent story based on a given image sequence. Unlike tasks like image captioning, visual stories should contain factual descriptions, worldviews, and human social commonsense to put disjointed elements together to form a coherent a

visual storytelling sco-vist graph representation semantic edge weights floyd-warshall algorithm

发现论文，激发创造

基于常识知识的概念选择，实现多样化、信息丰富的视觉叙事

本文提出了一种基于概念选择模块和常识知识图谱的图像序列可视化叙事模型，以提高生成的故事的多样性和信息量，实现了很好的效果。

Feb, 2021

问题 - 答案计划的视觉叙事

将图像序列转化为可解释的视觉前缀，结合预训练语言模型和规划，利用问题 - 答案对作为蓝图计划选择显著的视觉概念，并确定它们如何组织成故事，生成更连贯、有趣和自然的故事。

Oct, 2023

以人物为中心的叙事

该研究利用 VIST 数据集，提出了一个模型，通过隐式学习提供的角色之间的关系，生成关注的角色的故事，旨在解决基于图像序列生成故事时，模型忽略可能存在的人和动物角色的问题。

Sep, 2019

情节设计和改写：为视觉叙事建模

本文介绍了 PR-VIST 框架，将输入的图像序列表示为故事图，找到形成故事情节的最佳路径，并通过迭代训练过程来生成最终故事，该框架根据自动和人工语法而言有更好的多样性、连贯性和人性化表现，削减研究表明描绘和重塑都对模型的优越性做出了贡献。

May, 2021

保持一致性：通过迭代多智能体通信从图像流中进行主题感知的故事叙述

本研究提出了一种新的视觉叙述方法，引入话题描述任务来检测图像流的全局语义背景，并通过多代理通信框架将话题描述生成器与故事生成器合并学习，实验结果表明该方法在生成故事方面具有比现有方法更高的质量。

Nov, 2019

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

视觉叙事

首个序列视觉语言数据集的发布，这个数据集中包含 81,743 张唯一图片和 20,211 个序列，旨在探讨其在视觉叙事任务中的应用，建立多个强劲的基础模型以及推动基于自动度量标准的进展，为模拟具象和比喻、社交语言提供了可能，从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。

Apr, 2016

将视觉空间、语言和常识结构融合于故事可视化

本文讨论如何更好地将文本转化为对应的图像序列，包括利用 Transformers、constituency parse trees、commonsense 信息以及 visuo-spatial 信息，最终提高了生成图像的质量和一致性。

Oct, 2021

TARN-VIST: 面向视觉叙事的主题感知强化网络

通过使用主题感知的增强学习网络，我们提出了一种新的方法来生成更连贯和相关的视觉叙事故事。实验结果表明，我们的模型在多个评估指标上优于大多数竞争模型。

Mar, 2024

知识增强型视觉叙事

该研究提出了 KG-Story，这是一个通过使用外部知识图谱生成有趣故事的三阶段框架，采用序列化的照片作为输入，比起现有最先进的系统，经人类评价的结果表明 KG-Story 产生的故事平均排名更好。

Dec, 2019