BriefGPT.xyz
Dec, 2023
基于主动探索的样本有效强化学习来自人类反馈
Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration
HTML
PDF
Viraj Mehta, Vikramjeet Das, Ojash Neopane, Yijia Dai, Ilija Bogunovic...
TL;DR
利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
Abstract
preference-based feedback
is important for many applications in
reinforcement learning
where direct evaluation of a reward function is not feasible. A notable recent example arises in
→