Apr, 2024

HQ-Edit:面向基于指令的图像编辑的高质量数据集

TL;DR本研究介绍了 HQ-Edit,这是一个包含约 200,000 个编辑的高质量基于指令的图像编辑数据集。通过利用先进的基础模型 GPT-4V 和 DALL-E 3,我们构建了一个可扩展的数据收集流程,收集了多样的在线示例,并使用这些示例创建了具有详细文本提示的高质量双联图像,通过后期处理确保了精确的对齐。此外,我们提出了两个评估指标 Alignment 和 Coherence,通过使用 GPT-4V 对图像编辑对的质量进行定量评估。HQ-Edit 的高分辨率图像以及伴随的全面编辑提示大大增强了现有图像编辑模型的能力,例如,经过微调的 InstructPix2Pix 可以达到最先进的图像编辑性能,甚至超过那些使用人工标注数据进行微调的模型。