以人物为中心的叙事
首个序列视觉语言数据集的发布,这个数据集中包含 81,743 张唯一图片和 20,211 个序列,旨在探讨其在视觉叙事任务中的应用,建立多个强劲的基础模型以及推动基于自动度量标准的进展,为模拟具象和比喻、社交语言提供了可能,从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。
Apr, 2016
将图像序列转化为可解释的视觉前缀,结合预训练语言模型和规划,利用问题 - 答案对作为蓝图计划选择显著的视觉概念,并确定它们如何组织成故事,生成更连贯、有趣和自然的故事。
Oct, 2023
SCO-VIST 框架使用图表示形式,结合语义和基于发生的边权重,通过 Floyd-Warshall 算法生成视觉叙事。在多个指标上,该框架在视觉根植性、连贯性、多样性和人性上优于其他模型,经过自动和人工评估。
Feb, 2024
利用跨模态预训练的 CLIP 模型,结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器,提出了一种仅使用文本数据进行训练的视觉叙事方法,有效提高了视觉叙事的泛化能力。在 VIST 基准上进行的广泛实验以及表达多样性和人工评估的进一步评估结果,都突显了我们方法在信息丰富性和稳健性方面的优越性。
Aug, 2023
我们提出了一种基于人物感知关系的视频故事问题回答模型,它通过多示例共现匹配实现弱监督人脸命名,并利用 Transformer 结构支持高水平推理。我们在 TVQA 数据集上进行了训练和测试,并通过广泛的消融研究验证了我们提出的方法。
May, 2020
本文介绍了 PR-VIST 框架,将输入的图像序列表示为故事图,找到形成故事情节的最佳路径,并通过迭代训练过程来生成最终故事,该框架根据自动和人工语法而言有更好的多样性、连贯性和人性化表现,削减研究表明描绘和重塑都对模型的优越性做出了贡献。
May, 2021
此研究提出并介绍了拥有角色描述的文学作品摘要数据集 LiSCU,探索了文学角色理解中的新领域,并通过使用预训练语言模型进行的实验,表明需要更好的叙事理解模型。
Sep, 2021
该研究提出了一种基于 Vision Transformer 的模型来描述图像集,借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系,模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。
Oct, 2022
本文介绍了 VIST 角色数据集,提出了重要角色检测和角色定位两个任务,并开发了基于分布相似性和预训练视觉和语言模型的简单无监督模型。这些模型和数据集可为基于角色视角的故事分析和生成工作提供基础。
Mar, 2023
本研究探讨了基于神经生成的不同人格特征的视觉故事生成,通过在编码器和解码器表示中添加人格来引导生成,提出了五种模型,并使用五种不同的人格进行实验,结果表明我们的模型在生成目标人格的故事时表现更好。
Jun, 2019