在视觉叙事中检测和固定重要角色

AAAIMar, 2023

在视觉叙事中检测和固定重要角色

Detecting and Grounding Important Characters in Visual Stories

Danyang Liu, Frank Keller

TL;DR本文介绍了 VIST 角色数据集，提出了重要角色检测和角色定位两个任务，并开发了基于分布相似性和预训练视觉和语言模型的简单无监督模型。这些模型和数据集可为基于角色视角的故事分析和生成工作提供基础。

Abstract

characters are essential to the plot of any story. Establishing the characters before writing a story can improve the clarity of the plot and the overall flow of the narrative. However, previous work on

visual storytelling characters vist-character dataset important character detection character grounding

发现论文，激发创造

以人物为中心的叙事

该研究利用 VIST 数据集，提出了一个模型，通过隐式学习提供的角色之间的关系，生成关注的角色的故事，旨在解决基于图像序列生成故事时，模型忽略可能存在的人和动物角色的问题。

Sep, 2019

让你的角色讲述他们的故事：面向角色的叙事理解数据集

此研究提出并介绍了拥有角色描述的文学作品摘要数据集 LiSCU，探索了文学角色理解中的新领域，并通过使用预训练语言模型进行的实验，表明需要更好的叙事理解模型。

Sep, 2021

叙事文本中角色和地点的基准确认

通过对文本中字符和位置的跟踪，我们提出了一种新的空间关系分类任务，并使用规范化的注释和上下文嵌入作为特征来预测它们，结果发现，主角移动的比较多，女性角色更多地占据内部空间。

May, 2023

基于人物角色的故事生成系统：利用策划好的图像序列激发创作

本研究设计了一种新的图像故事生成数据集 Visual Writing Prompts，通过众包方式收集与每个图像序列对应的 12K 个故事，并基于角色一致性提出了一种新的故事生成模型，与现有技术相比，生成的故事更为连贯、有更强的叙述性和视觉基础。

Jan, 2023

角色至上：基于角色感知关系的视频故事理解

我们提出了一种基于人物感知关系的视频故事问题回答模型，它通过多示例共现匹配实现弱监督人脸命名，并利用 Transformer 结构支持高水平推理。我们在 TVQA 数据集上进行了训练和测试，并通过广泛的消融研究验证了我们提出的方法。

May, 2020

基于角色模型的故事生成：我讲故事的方式

本研究探讨了基于神经生成的不同人格特征的视觉故事生成，通过在编码器和解码器表示中添加人格来引导生成，提出了五种模型，并使用五种不同的人格进行实验，结果表明我们的模型在生成目标人格的故事时表现更好。

Jun, 2019

GROOViST：一种视觉叙事中对物体进行定位的度量

该论文提出了一种评估图像序列生成的故事质量的方法，并针对视觉扎根度进行了分析和度量，提出了一种模块化设计的评估工具 GROOViST，该工具考虑了跨模态依赖、时间错位以及人类感知对视觉扎根度的影响。

Oct, 2023

使用基准和共指人生成描述

提出了一种基于弱监督学习的电影描述模型，通过学习角色的可视外观和描述之间的关系来实现角色地位的划分，该模型不仅提高了生成描述的质量，还实现了角色定位，局部共指分辨率，并在 MPII 电影描述数据集上进行了评价。

Apr, 2017

利用视觉特征学习字级组合性

本文提出了一种针对汉字、日语、韩语等语言内所含罕见字符提高识别准确度的模型，它基于字符的构成并通过卷积神经网络生成视觉上的字符嵌入。实验结果表明该模型可更好地处理具有稀有字符的语言文本，并且能够学习集中于传达语义信息的字符部件，从而生成具有视觉一致性的字符嵌入。

Apr, 2017

WordSup：基于文字注释的基于字符的文本检测方法

提出了一个弱监督框架，利用词的标注信息培训字符检测器，以及该框架在场景文本检测和数学表达式识别等多种场景下的应用。

Aug, 2017