- 华丽:从任何创意中打造您理想的角色化妆
通过从最少三到五张不同类型的图像中获得艺术灵感并直接在人脸上进行实际化妆,本研究介绍了一种名为 $Gorgeous$ 的新型基于扩散的化妆方法,能够创造独特和主题化的角色妆容,并能有效地与更广泛的故事元素进行集成,从而提升叙事深度和视觉冲击 - TARN-VIST: 面向视觉叙事的主题感知强化网络
通过使用主题感知的增强学习网络,我们提出了一种新的方法来生成更连贯和相关的视觉叙事故事。实验结果表明,我们的模型在多个评估指标上优于大多数竞争模型。
- AesopAgent: 故事到视频制作的代理驱动演化系统
AesopAgent 是一个代理驱动的进化系统,用于多模态内容生成,在视觉叙事方面取得了最先进的性能。
- SCO-VIST: 基于社交互动常识知识的视觉叙事
SCO-VIST 框架使用图表示形式,结合语义和基于发生的边权重,通过 Floyd-Warshall 算法生成视觉叙事。在多个指标上,该框架在视觉根植性、连贯性、多样性和人性上优于其他模型,经过自动和人工评估。
- MagicScroll: 多层语义感知去噪的视觉叙事非典型宽高比图像生成
使用 MagicScroll,一种多层、渐进式扩散型图像生成框架,结合新颖的语义感知去噪过程,提供了对于生成图像的对象、场景和背景层面的细粒度控制,借助文本、图像和布局条件,能够改善与叙述文本的一致性,提高视觉连贯性,并吸引观众,并且建立了 - EMNLPDiffuVST: 用全局历史引导的去噪模型叙述虚构场景
最近图像与视频生成方法的进步,特别是基于人工智能的图像合成,已经导致了大量抽象和多样化的视觉场景的产生。因此,视觉叙事(Visual Storytelling,VST)成为一个更具挑战性的任务,并且在真实世界以外越来越受欢迎。本文提出了一种 - EMNLPGROOViST:一种视觉叙事中对物体进行定位的度量
该论文提出了一种评估图像序列生成的故事质量的方法,并针对视觉扎根度进行了分析和度量,提出了一种模块化设计的评估工具 GROOViST,该工具考虑了跨模态依赖、时间错位以及人类感知对视觉扎根度的影响。
- EMNLP问题 - 答案计划的视觉叙事
将图像序列转化为可解释的视觉前缀,结合预训练语言模型和规划,利用问题 - 答案对作为蓝图计划选择显著的视觉概念,并确定它们如何组织成故事,生成更连贯、有趣和自然的故事。
- 构想叙事智能:创造性视觉讲故事选集
通过主题分析创作过程中的变异性,本研究呈现了创造性视觉叙事过程中的五个主题:根据视觉叙事与构想进行叙述、动态描绘实体 / 物体特征、感知场景的经验性信息、调节情绪、编码叙事偏见。从对人们从图像中获取故事的不同方式的理解出发,我们提出了收集以 - MM纯文本训练视觉叙事
利用跨模态预训练的 CLIP 模型,结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器,提出了一种仅使用文本数据进行训练的视觉叙事方法,有效提高了视觉叙事的泛化能力。在 VIST 基准上进行的广泛实验以及表达多样性和人工评估 - AAAI在视觉叙事中检测和固定重要角色
本文介绍了 VIST 角色数据集,提出了重要角色检测和角色定位两个任务,并开发了基于分布相似性和预训练视觉和语言模型的简单无监督模型。这些模型和数据集可为基于角色视角的故事分析和生成工作提供基础。
- RoViST:学习视觉叙事的鲁棒度量
本文提出了三种评估指标集,分别是视觉定位,连贯性和非冗余性,以便更好地评估生成故事的机器模型。通过分析添加的评估指标集与人类判断分数之间的相关性,我们表明我们的度量衡比其他衡量标准更好。这种度量衡可以作为一种基于学习的评估指标,是现有基于规 - 具有组内语义的知识增强注意力网络用于视觉叙事
提出了一种基于知识增强的注意力网络,采用分组语义模型,能够生成比现有方法更合理和流畅的多模态视觉叙事,并在客观和主观评估指标上显示出优越性能。
- 利用意义建构和叙事的图像理解系统
介绍人类理解世界的两个概念:Sensemaking 和 narrative。分析它们与信息、计算机系统和视觉叙事之间的联系,并提出利用 Sensemaking 和 narrative 组件来增强视觉叙事解决方案的想法。最后讨论了目前使用 S - AAAI基于常识知识的概念选择,实现多样化、信息丰富的视觉叙事
本文提出了一种基于概念选择模块和常识知识图谱的图像序列可视化叙事模型,以提高生成的故事的多样性和信息量,实现了很好的效果。
- AAAI隐藏与讲述:学习连接照片流进行视觉叙事
此篇论文旨在通过学习网络和 hide-and-tell 模型,实现基于照片流的视觉叙事,其中传统的 RNN 模型得到了改进和改善,最终在自动指标方面的表现优于之前的最先进方法,并在可视化上表现出填补照片之间的叙事空缺的能力。
- ICCV通过预测故事中的锚定词嵌入进行视觉叙事
提出了一种用于视觉故事叙述任务的学习模型,其主要思想是从图片中预测锚定词嵌入,并联合使用嵌入和图片特征生成叙述句,方法设计简单,易优化,在大多数自动评估指标中取得最佳结果,在人员评估中也优于竞争方法。
- AAAI知识增强型视觉叙事
该研究提出了 KG-Story,这是一个通过使用外部知识图谱生成有趣故事的三阶段框架,采用序列化的照片作为输入,比起现有最先进的系统,经人类评价的结果表明 KG-Story 产生的故事平均排名更好。
- COLING保持一致性:通过迭代多智能体通信从图像流中进行主题感知的故事叙述
本研究提出了一种新的视觉叙述方法,引入话题描述任务来检测图像流的全局语义背景,并通过多代理通信框架将话题描述生成器与故事生成器合并学习,实验结果表明该方法在生成故事方面具有比现有方法更高的质量。
- ACL以人物为中心的叙事
该研究利用 VIST 数据集,提出了一个模型,通过隐式学习提供的角色之间的关系,生成关注的角色的故事,旨在解决基于图像序列生成故事时,模型忽略可能存在的人和动物角色的问题。