Apr, 2024

细调文本-图像模型的自信度感知奖励优化

TL;DR使用人类反馈数据训练的奖励函数来微调文本到图像模型已被证明可以将模型行为与人类意图对齐。然而,过度优化这些奖励模型可能会损害微调模型的性能,这被称为奖励过度优化现象。为了深入研究这个问题,我们引入了Text-Image Alignment Assessment (TIA2)基准,该基准由各种文本提示、图像和人类注释组成。我们在这个基准上评估了几个最先进的奖励模型,发现它们与人类评估频繁不一致。我们经验证明,当使用一个不良对齐的奖励模型作为微调目标时,过度优化现象尤为严重。为了解决这个问题,我们提出了TextNorm,一种简单的方法,根据一组语义对比的文本提示来增强对齐。我们证明,在微调中整合具有置信度校准的奖励可以有效减少过度优化,相对于基线奖励模型,在文本到图像对齐的人类评估中获得了两倍的胜利。