基于视觉 Transformer 的图像描述故事模型

Oct, 2022

基于视觉 Transformer 的图像描述故事模型

Vision Transformer Based Model for Describing a Set of Images as a Story

Zainy M. Malakan, Ghulam Mubashar Hassan, Ajmal Mian

TL;DR该研究提出了一种基于 Vision Transformer 的模型来描述图像集，借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系，模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。

Abstract

visual story-telling is the process of forming a multi-sentence story from a set of images. Appropriately including visual variation and contextual information captured inside the input images is one of the most challenging aspects of visual storytelling. Consequently, stories develope

visual story-telling vision transformer bidirectional-lstm attention mechanism vist

发现论文，激发创造

情境化、展示和讲述：一种神经视觉讲故事的方法

本文提出了基于神经网络的模型，通过图像序列生成短篇故事，该模型继承了 Vinyals 等人的图像描述模型，并引入了编码器 LSTM 来计算每个故事的上下文向量，用作多个独立解码器 LSTM 的第一个状态，每个解码器 LSTM 分别通过将图像嵌入作为第一个输入以生成相应图像序列的故事部分。我们在 Visual Storytelling Challenge 2018 的内部赛道上展示出了具有 METEOR 指标和人类评分的具有竞争力的结果。

Jun, 2018

保持一致性：通过迭代多智能体通信从图像流中进行主题感知的故事叙述

本研究提出了一种新的视觉叙述方法，引入话题描述任务来检测图像流的全局语义背景，并通过多代理通信框架将话题描述生成器与故事生成器合并学习，实验结果表明该方法在生成故事方面具有比现有方法更高的质量。

Nov, 2019

可视化转换叙述

本文提出了一种新的视觉推理任务：Visual Transformation Telling (VTT)，并设计了一种基于 VTT 的机器学习模型 TTNet，该模型使用 CrossTask 和 COIN 等视频数据集进行训练与测试并在具有表现力和泛化性方面优于其他模型。

May, 2023

问题 - 答案计划的视觉叙事

将图像序列转化为可解释的视觉前缀，结合预训练语言模型和规划，利用问题 - 答案对作为蓝图计划选择显著的视觉概念，并确定它们如何组织成故事，生成更连贯、有趣和自然的故事。

Oct, 2023

隐藏与讲述：学习连接照片流进行视觉叙事

此篇论文旨在通过学习网络和 hide-and-tell 模型，实现基于照片流的视觉叙事，其中传统的 RNN 模型得到了改进和改善，最终在自动指标方面的表现优于之前的最先进方法，并在可视化上表现出填补照片之间的叙事空缺的能力。

Feb, 2020

以人物为中心的叙事

该研究利用 VIST 数据集，提出了一个模型，通过隐式学习提供的角色之间的关系，生成关注的角色的故事，旨在解决基于图像序列生成故事时，模型忽略可能存在的人和动物角色的问题。

Sep, 2019

视觉叙事

首个序列视觉语言数据集的发布，这个数据集中包含 81,743 张唯一图片和 20,211 个序列，旨在探讨其在视觉叙事任务中的应用，建立多个强劲的基础模型以及推动基于自动度量标准的进展，为模拟具象和比喻、社交语言提供了可能，从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。

Apr, 2016

ViNTER: 带有情感弧线感知机制的图像叙事生成

本报告提出了一种名为 ViNTER（Visual Narrative Transformer with Emotion arc Representation）的图像叙事生成方法，其以 “情感轨迹” 作为输入来捕捉感情变化的序列，并在图像叙事数据集上进行了自动化和手动评估的实验结果，证明了这种方法的有效性。

Feb, 2022

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021