BriefGPT.xyz
Oct, 2024
基于大型语言模型的少样本上下文偏好学习
Few-shot In-Context Preference Learning Using Large Language Models
HTML
PDF
Chao Yu, Hong Lu, Jiaxuan Gao, Qixin Tan, Xinting Yang...
TL;DR
本研究解决了复杂行为中的奖励函数设计问题,提出了一种名为上下文偏好学习(ICPL)的方法,通过大型语言模型(LLMs)将人类偏好转化为奖励代码,从而加速学习过程。研究表明,ICPL在效率上远超传统人类反馈强化学习(RLHF),并且在与真人反馈互动中同样有效。
Abstract
Designing reward functions is a core component of
Reinforcement Learning
but can be challenging for truly complex behavior.
Reinforcement Learning
from
→