ICLRDec, 2023

用合成数据对 LLM 进行精简自我评价:一个贝叶斯视角

TL;DR本文通过引入精简自我批判(dSC)将 RLAIF 的解释视为贝叶斯推理,通过 Gibbs 采样器对 LLM 的输出进行改进并提炼为经过调整的模型。只需合成数据,dSC 在安全、情感和隐私控制实验中表现出能够成为与 LLMs 相符的可行且廉价的替代方法。代码可在 https://github.com/vicgalle/distilled-self-critique 下载。