EditBoard:面向文本驱动视频编辑模型的综合评估基准
本文提出EditEval:一种以指令为基础的评测套件,利用高质量的现有和新数据集自动评估编辑能力,证明了InstructGPT和PEER的表现最佳,而大多数基线都低于监督学习SOTA,本文通过这个基准的发布和公开可用的排行榜挑战,希望能够解锁未来发展能够进行迭代和更可控编辑的模型的研究。
Sep, 2022
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了3,600个评分。
Nov, 2022
本文提出了EI ^ 2模型,主要解决Text-to-Image的视频编辑中存在的文本指示不一致和时间序列问题,通过引入Shift-restricted Temporal Attention Module (STAM)和Fine-coarse Frame Attention Module (FFAM)解决协变量漂移问题以及合理利用局部和全局信息,提高编辑的一致性。
May, 2023
基于文本驱动的视频编辑,我们介绍了一个利用文本到图像扩散模型的框架,生成高质量视频的同时保留输入视频的空间布局和运动,实现编辑视频的一致性。
Jul, 2023
通过引入 EditVal,这是一个标准化的用于定量评估文本引导的图像编辑方法的基准测试,本研究对8种前沿扩散编辑方法进行了基准测试,发现 Instruct-Pix2Pix 和 Null-Text 的性能最好且能保持原始图像特性,而大多数编辑方法在空间操作方面失败,没有一个单独在各种编辑类型上排名最佳的方法。希望我们的基准测试能为未来开发更可靠的文本引导图像编辑工具铺平道路。
Oct, 2023
对于图像和语言生成模型的视觉和语言生成模型,我们提出了一种新的框架和流程来彻底评估生成视频的性能,并通过系数对齐目标度量与用户意见,以获得模型的最终排行榜。
Oct, 2023
这项研究通过在文本为基础的视频编辑过程中分为两个阶段,利用现有的文本到图像扩散模型同时编辑一些关键帧,并引入了一种称为MaskINT的高效模型,该模型建立在非自回归的掩膜式生成变压器上,在关键帧之间进行帧插值,从中间帧提供的结构指导中受益。我们进行了一系列实验证明了MaskINT相对于其他基于扩散模型的方法的有效性和高效性。该研究为基于文本的视频编辑提供了实用的解决方案,并展示了非自回归的掩膜式生成变压器在该领域中的潜力。
Dec, 2023
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024
本研究解决了文本驱动视频编辑中评估编辑视频的有效性缺失的问题。通过引入E-Bench基准套件及其数据库E-Bench DB,提供了一种新的主观对齐定量测量方法E-Bench QA,该方法不仅考虑了传统的视觉质量指标,还注重文本与视频的对齐和相关性建模。研究结果展示了E-Bench在与人类偏好对齐方面的优越表现,有潜力显著改善视频编辑的质量评估流程。
Aug, 2024
本研究针对基于指令的图像编辑(IIE)模型评估中的重大挑战,提出I2EBench,一个全面的评估基准,用于多维度自动评估编辑结果。I2EBench不仅提供了16个评估维度,确保与人类感知一致,还通过分析现有模型的优缺点,为未来的研究发展提供了宝贵的见解。
Aug, 2024