AAAIDec, 2023

Prompt-Propose-Verify: 一个可靠的基于基础模型的手 - 物互动数据生成框架

TL;DR通过以文本提示为条件的扩散模型,在人体特征如手部、牙齿等方面生成逼真的图像存在困难。我们假设通过用质量良好的标注数据克服扩散模型的这种缺陷。本文通过使用扩散模型改进手物互动图像生成,采集了一个经过精心注释的手物互动合成数据集,并在其上微调一个稳定的扩散模型。我们通过定性和定量指标(如 CLIPScore、ImageReward、Fedility 和对齐度)评估了图像 - 文本数据集,表现出明显优于当前最先进基准的性能。