通往幸福结局的陡峭道路:对当前视觉叙事模型的分析
本文介绍了 PR-VIST 框架,将输入的图像序列表示为故事图,找到形成故事情节的最佳路径,并通过迭代训练过程来生成最终故事,该框架根据自动和人工语法而言有更好的多样性、连贯性和人性化表现,削减研究表明描绘和重塑都对模型的优越性做出了贡献。
May, 2021
将图像序列转化为可解释的视觉前缀,结合预训练语言模型和规划,利用问题 - 答案对作为蓝图计划选择显著的视觉概念,并确定它们如何组织成故事,生成更连贯、有趣和自然的故事。
Oct, 2023
该研究利用 VIST 数据集,提出了一个模型,通过隐式学习提供的角色之间的关系,生成关注的角色的故事,旨在解决基于图像序列生成故事时,模型忽略可能存在的人和动物角色的问题。
Sep, 2019
此篇论文旨在通过学习网络和 hide-and-tell 模型,实现基于照片流的视觉叙事,其中传统的 RNN 模型得到了改进和改善,最终在自动指标方面的表现优于之前的最先进方法,并在可视化上表现出填补照片之间的叙事空缺的能力。
Feb, 2020
本文提出了一个计算创意视觉叙述的管道和任务模块,用于构建一个具有不同环境,基于叙述目标的变异和面向受众的故事叙述能力的计算机视觉技术,并分析了收集的数据并描述了此方法向自动化的计划。
Jul, 2018
人类沟通和感知故事情节对媒体技术研究和发展至关重要,我们提出了一种多模态分析漫画和漫画风格视觉叙事的流派的新方法,通过高级特征对流派分类进行详细分析,并且系统性地将主观叙事模式纳入计算模型。
Dec, 2023
研究了一种生成序列图像以可视化故事的任务,提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型,并提供了相应的评价指标和对这些指标的直观检验。
May, 2021
从视觉数据中创建引人入胜的叙述对于自动化数字媒体消费、辅助技术和互动娱乐至关重要。该研究综述了用于生成这些叙述的方法学,重点讨论其原理、优势和局限性。该综述还涵盖了与自动故事生成相关的任务,如图像和视频字幕以及视觉问题回答,以及没有视觉输入的故事生成。这些任务与视觉故事生成存在共同的挑战,并为该领域使用的技术提供了灵感。我们对主要数据集和评估指标进行了分析,并提供了对其局限性的批评性观点。
Jun, 2024
本文提出了一种基于生成模型的 auto-regressive image generator,用于在文本提示和前一个图像的条件下生成连贯的图像序列作为开放式视觉叙事,并介绍了一个名为 StorySalon 的新的数据集构建流程。实验证明,该模型在图像质量、风格一致性、内容一致性和视觉 - 语言对齐等方面具有显著优越性。
Jun, 2023