视觉故事后期制作

ACLJun, 2019

Visual Story Post-Editing

Ting-Yao Hsu, Chieh-Yang Huang, Yen-Chia Hsu, Ting-Hao 'Kenneth' Huang

TL;DR本文介绍了第一个包含 14,905 个人工编辑版本和 2,981 个机器生成的视觉故事的数据集，探讨了如何利用这些人工编辑版本进行后期编辑任务，并建立了基础数据，展示了人类编辑与机器编辑之间的弱相关性关系，从而促进了对新的自动化评估指标的需求。

Abstract

We introduce the first dataset for human edits of machine-generated visual stories and explore how these collected edits may be used for the visual story →

visual stories dataset human edits post-editing task automatic metrics

发现论文，激发创造

视觉叙事

首个序列视觉语言数据集的发布，这个数据集中包含 81,743 张唯一图片和 20,211 个序列，旨在探讨其在视觉叙事任务中的应用，建立多个强劲的基础模型以及推动基于自动度量标准的进展，为模拟具象和比喻、社交语言提供了可能，从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。

Apr, 2016

以人物为中心的叙事

该研究利用 VIST 数据集，提出了一个模型，通过隐式学习提供的角色之间的关系，生成关注的角色的故事，旨在解决基于图像序列生成故事时，模型忽略可能存在的人和动物角色的问题。

Sep, 2019

SCO-VIST: 基于社交互动常识知识的视觉叙事

SCO-VIST 框架使用图表示形式，结合语义和基于发生的边权重，通过 Floyd-Warshall 算法生成视觉叙事。在多个指标上，该框架在视觉根植性、连贯性、多样性和人性上优于其他模型，经过自动和人工评估。

Feb, 2024

HQ-Edit：面向基于指令的图像编辑的高质量数据集

本研究介绍了 HQ-Edit，这是一个包含约 200,000 个编辑的高质量基于指令的图像编辑数据集。通过利用先进的基础模型 GPT-4V 和 DALL-E 3，我们构建了一个可扩展的数据收集流程，收集了多样的在线示例，并使用这些示例创建了具有详细文本提示的高质量双联图像，通过后期处理确保了精确的对齐。此外，我们提出了两个评估指标 Alignment 和 Coherence，通过使用 GPT-4V 对图像编辑对的质量进行定量评估。HQ-Edit 的高分辨率图像以及伴随的全面编辑提示大大增强了现有图像编辑模型的能力，例如，经过微调的 InstructPix2Pix 可以达到最先进的图像编辑性能，甚至超过那些使用人工标注数据进行微调的模型。

Apr, 2024

CVPR 2023 文本引导的视频编辑竞赛

利用 AI 实现文本引导下的视频编辑的方法在该研究中进行了描绘和竞赛评估，并提出了一种新的数据集用于文本引导下的视频编辑任务。

Oct, 2023

问题 - 答案计划的视觉叙事

将图像序列转化为可解释的视觉前缀，结合预训练语言模型和规划，利用问题 - 答案对作为蓝图计划选择显著的视觉概念，并确定它们如何组织成故事，生成更连贯、有趣和自然的故事。

Oct, 2023

隐藏与讲述：学习连接照片流进行视觉叙事

此篇论文旨在通过学习网络和 hide-and-tell 模型，实现基于照片流的视觉叙事，其中传统的 RNN 模型得到了改进和改善，最终在自动指标方面的表现优于之前的最先进方法，并在可视化上表现出填补照片之间的叙事空缺的能力。

Feb, 2020

RoViST：学习视觉叙事的鲁棒度量

本文提出了三种评估指标集，分别是视觉定位，连贯性和非冗余性，以便更好地评估生成故事的机器模型。通过分析添加的评估指标集与人类判断分数之间的相关性，我们表明我们的度量衡比其他衡量标准更好。这种度量衡可以作为一种基于学习的评估指标，是现有基于规则的指标的补充。

May, 2022

利用人类反馈进行指导性视觉编辑的 HIVE

本文提出了一种新的框架来使用人类反馈来改进指导性视觉编辑，通过学习奖励函数捕捉用户偏好并采用可扩展的扩散模型微调方法以处理数据限制带来的偏见，同时贡献了新的数据集以提升性能。实验证明该方法比之前的最先进的指导图像编辑方法更受欢迎。

Mar, 2023

情节设计和改写：为视觉叙事建模

本文介绍了 PR-VIST 框架，将输入的图像序列表示为故事图，找到形成故事情节的最佳路径，并通过迭代训练过程来生成最终故事，该框架根据自动和人工语法而言有更好的多样性、连贯性和人性化表现，削减研究表明描绘和重塑都对模型的优越性做出了贡献。

May, 2021