May, 2023

SLiC-HF: 序列似然校准与人类反馈

TL;DR本文介绍了如何使用Sequence Likelihood Calibration(SLiC)从人类反馈中有效地学习,并证明了这种方法在人类评估实验中可以极大地提高监督微调基线和PPO RLHF的竞争力。同时,与过去的工作相比,使用SLiC-HF实现简单、易于调节且具有更高的计算效率。