Jul, 2024

元奖励语言模型:通过 LLM 作为元评判者的自我提升对齐

TL;DR本研究解决了大语言模型(LLMs)在自我评判能力提升中的不足。通过引入一种新的“元奖励”步骤,使模型能够评判自己的判断并基于反馈改进,使得模型在执行指令和自我评判方面均有所提升。研究发现,这种无监督的方法显著提高了模型的判断能力,显示出模型在没有人类监督下自我提升的潜力。