Apr, 2023

RAFT: 用于生成式基础模型对齐的奖励排序微调方法

TL;DR本文提出了一种新的框架 RAFT,它利用奖励模型和足够数量的样本将生成模型对齐,选择高质量的样本并去除那些表现不良的样本。该算法在大型语言模型和扩散模型的情况下表现良好。