视觉故事后期制作
首个序列视觉语言数据集的发布,这个数据集中包含 81,743 张唯一图片和 20,211 个序列,旨在探讨其在视觉叙事任务中的应用,建立多个强劲的基础模型以及推动基于自动度量标准的进展,为模拟具象和比喻、社交语言提供了可能,从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。
Apr, 2016
该研究利用 VIST 数据集,提出了一个模型,通过隐式学习提供的角色之间的关系,生成关注的角色的故事,旨在解决基于图像序列生成故事时,模型忽略可能存在的人和动物角色的问题。
Sep, 2019
SCO-VIST 框架使用图表示形式,结合语义和基于发生的边权重,通过 Floyd-Warshall 算法生成视觉叙事。在多个指标上,该框架在视觉根植性、连贯性、多样性和人性上优于其他模型,经过自动和人工评估。
Feb, 2024
本研究介绍了 HQ-Edit,这是一个包含约 200,000 个编辑的高质量基于指令的图像编辑数据集。通过利用先进的基础模型 GPT-4V 和 DALL-E 3,我们构建了一个可扩展的数据收集流程,收集了多样的在线示例,并使用这些示例创建了具有详细文本提示的高质量双联图像,通过后期处理确保了精确的对齐。此外,我们提出了两个评估指标 Alignment 和 Coherence,通过使用 GPT-4V 对图像编辑对的质量进行定量评估。HQ-Edit 的高分辨率图像以及伴随的全面编辑提示大大增强了现有图像编辑模型的能力,例如,经过微调的 InstructPix2Pix 可以达到最先进的图像编辑性能,甚至超过那些使用人工标注数据进行微调的模型。
Apr, 2024
将图像序列转化为可解释的视觉前缀,结合预训练语言模型和规划,利用问题 - 答案对作为蓝图计划选择显著的视觉概念,并确定它们如何组织成故事,生成更连贯、有趣和自然的故事。
Oct, 2023
此篇论文旨在通过学习网络和 hide-and-tell 模型,实现基于照片流的视觉叙事,其中传统的 RNN 模型得到了改进和改善,最终在自动指标方面的表现优于之前的最先进方法,并在可视化上表现出填补照片之间的叙事空缺的能力。
Feb, 2020
本文提出了三种评估指标集,分别是视觉定位,连贯性和非冗余性,以便更好地评估生成故事的机器模型。通过分析添加的评估指标集与人类判断分数之间的相关性,我们表明我们的度量衡比其他衡量标准更好。这种度量衡可以作为一种基于学习的评估指标,是现有基于规则的指标的补充。
May, 2022
本文提出了一种新的框架来使用人类反馈来改进指导性视觉编辑,通过学习奖励函数捕捉用户偏好并采用可扩展的扩散模型微调方法以处理数据限制带来的偏见,同时贡献了新的数据集以提升性能。实验证明该方法比之前的最先进的指导图像编辑方法更受欢迎。
Mar, 2023
本文介绍了 PR-VIST 框架,将输入的图像序列表示为故事图,找到形成故事情节的最佳路径,并通过迭代训练过程来生成最终故事,该框架根据自动和人工语法而言有更好的多样性、连贯性和人性化表现,削减研究表明描绘和重塑都对模型的优越性做出了贡献。
May, 2021