Oct, 2024

基于大型语言模型的少样本上下文偏好学习

TL;DR本研究解决了复杂行为中的奖励函数设计问题,提出了一种名为上下文偏好学习(ICPL)的方法,通过大型语言模型(LLMs)将人类偏好转化为奖励代码,从而加速学习过程。研究表明,ICPL在效率上远超传统人类反馈强化学习(RLHF),并且在与真人反馈互动中同样有效。