本文提出了基于神经网络的模型,通过图像序列生成短篇故事,该模型继承了 Vinyals 等人的图像描述模型,并引入了编码器 LSTM 来计算每个故事的上下文向量,用作多个独立解码器 LSTM 的第一个状态,每个解码器 LSTM 分别通过将图像嵌入作为第一个输入以生成相应图像序列的故事部分。我们在 Visual Storytelling Challenge 2018 的内部赛道上展示出了具有 METEOR 指标和人类评分的具有竞争力的结果。
Jun, 2018
将图像序列转化为可解释的视觉前缀,结合预训练语言模型和规划,利用问题 - 答案对作为蓝图计划选择显著的视觉概念,并确定它们如何组织成故事,生成更连贯、有趣和自然的故事。
Oct, 2023
本论文提出了一种新的句子表示方法来减轻不一致问题,并引入了融合特征的新的鉴别器和扩展的空间注意力来提高图像质量和故事连贯性,实验表明,与现有方法相比,该方法具有优越的性能。
Aug, 2022
我们介绍了训练在监督图像字幕语料库上的多种模型,用于预测给定字幕的图像特征,以执行句子表示接地。我们训练了一个接地的句子编码器,在 Coco 字幕和图像检索方面取得了良好的性能,随后展示了该编码器可以成功地转移到各种 NLP 任务,与仅文本模型相比,性能有所提高。最后,我们分析了接地的贡献,表明该系统学习到的单词嵌入优于非接地的单词嵌入。
Jul, 2017
此篇论文旨在通过学习网络和 hide-and-tell 模型,实现基于照片流的视觉叙事,其中传统的 RNN 模型得到了改进和改善,最终在自动指标方面的表现优于之前的最先进方法,并在可视化上表现出填补照片之间的叙事空缺的能力。
Feb, 2020
本研究提出了一种新的视觉叙述方法,引入话题描述任务来检测图像流的全局语义背景,并通过多代理通信框架将话题描述生成器与故事生成器合并学习,实验结果表明该方法在生成故事方面具有比现有方法更高的质量。
Nov, 2019
该研究提出了一种基于 Vision Transformer 的模型来描述图像集,借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系,模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。
Oct, 2022
在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题,进而生成连贯、高质量的多句故事可视化。
Nov, 2022
研究了一种生成序列图像以可视化故事的任务,提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型,并提供了相应的评价指标和对这些指标的直观检验。
May, 2021
该研究利用 VIST 数据集,提出了一个模型,通过隐式学习提供的角色之间的关系,生成关注的角色的故事,旨在解决基于图像序列生成故事时,模型忽略可能存在的人和动物角色的问题。
Sep, 2019