Jul, 2023

使用人类反馈的 3 分钟扩散模型的审查取样

TL;DR使用经过预训练的扩散模型和在最小人类反馈上训练的奖励模型,我们展示了用极高的人类反馈效率实现的屏蔽图像生成任务,仅几分钟的人类反馈标签足以完成此任务。