I2EBench:基于指令的图像编辑综合基准
我们提出了一种图像编辑方法,可以根据用户的书面指令编辑图像,同时我们结合了两个预训练模型的知识生成了大量训练数据,使用训练好的模型可以快速地编辑图像,并且可以适用于不同的输入图像和书面指令。
Nov, 2022
本文提出了一种基于文本指导的图像编辑系统Imagen Editor,通过利用对象检测器提出文本提示的修复遮罩并使用高分辨率图像来处理细节来实现忠实于输入文本且与输入图像一致的编辑,并提出一个名为EditBench的系统化基准来评估编辑效果。研究发现在训练过程中进行对象遮罩处理,可以显著提高文本与图像的对齐度和整体渲染效果,同时相较于文本渲染而言,这种方法在物体渲染和处理材料/颜色/大小属性上效果更佳。
Dec, 2022
本文提出了一种新的框架来使用人类反馈来改进指导性视觉编辑,通过学习奖励函数捕捉用户偏好并采用可扩展的扩散模型微调方法以处理数据限制带来的偏见,同时贡献了新的数据集以提升性能。实验证明该方法比之前的最先进的指导图像编辑方法更受欢迎。
Mar, 2023
通过引入 EditVal,这是一个标准化的用于定量评估文本引导的图像编辑方法的基准测试,本研究对8种前沿扩散编辑方法进行了基准测试,发现 Instruct-Pix2Pix 和 Null-Text 的性能最好且能保持原始图像特性,而大多数编辑方法在空间操作方面失败,没有一个单独在各种编辑类型上排名最佳的方法。希望我们的基准测试能为未来开发更可靠的文本引导图像编辑工具铺平道路。
Oct, 2023
InstructAny2Pix是一个灵活的多模态指令跟踪系统,其由多个组件组成,包括多模态编码器、扩散模型、多模态LLM和细化先验模块,能够根据来自音频、图像和文本的指令对输入图像进行编辑,实现了一系列新颖的指令引导编辑任务。
Dec, 2023
SmartEdit是一种基于指令的图像编辑方法,利用多模态大型语言模型(MLLMS)增强理解和推理能力,并通过双向交互模块实现输入图像和MLLM输出之间的综合双向信息交互,从而实现更复杂指令下的图像编辑。通过新构建的Reason-Edit评估数据集,定量和定性结果表明SmartEdit优于先前的方法,为复杂指令-based图像编辑的实际应用铺平了道路。
Dec, 2023
通过引入一项名为EditWorld的新编辑任务,本研究通过使用预训练模型在新的图像编辑数据集上进行训练,并采用设计的后期编辑策略来提高指令跟踪能力,从而显著优于现有的编辑方法,以实现由世界情景提供的图像编辑指令的理解和模拟。
May, 2024
该论文介绍了UltraEdit,一个大规模(约400万编辑样本),自动生成的面向基于指令的图像编辑的数据集。该数据集通过利用大型语言模型的创造性以及人工评定员提供的上下文编辑示例,解决了现有图像编辑数据集如InstructPix2Pix和MagicBrush的缺点,并提供了系统性的方法来生成大规模高质量的图像编辑样本。UltraEdit不仅可以通过扩大编辑指令的范围来进行编辑,还支持基于区域的编辑,并通过高质量的自动生成的区域注释进行增强。实验证明,基于UltraEdit训练的经典扩散式编辑基线在MagicBrush和Emu-Edit基准上取得了新的记录。进一步的分析也证实了真实图像锚点和基于区域的编辑数据的关键作用。该数据集、代码和模型可以在此https URL找到。
Jul, 2024
本研究解决了文本驱动视频编辑中评估编辑视频的有效性缺失的问题。通过引入E-Bench基准套件及其数据库E-Bench DB,提供了一种新的主观对齐定量测量方法E-Bench QA,该方法不仅考虑了传统的视觉质量指标,还注重文本与视频的对齐和相关性建模。研究结果展示了E-Bench在与人类偏好对齐方面的优越表现,有潜力显著改善视频编辑的质量评估流程。
Aug, 2024
本研究针对文本驱动视频编辑模型的评估缺乏全面基准的问题,提出了EditBoard作为解决方案。该基准涵盖九项自动化指标和四个维度,评估模型在四类任务中的表现,并引入三个新指标以提高评估的可靠性。通过开源EditBoard,本研究旨在标准化评估流程,推动强大视频编辑模型的发展。
Sep, 2024