BriefGPT.xyz
May, 2024
强化学习中主动多任务学习的力量
The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback
HTML
PDF
Ruitao Chen, Liwei Wang
TL;DR
通过多任务表示学习的方式,我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题,并假设存在一种共同线性表示。我们证明了考虑任务相关性,并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外,由于表示学习,目标任务的样本复杂度仅与潜在空间的维度成线性关系。
Abstract
reinforcement learning
from
human feedback
(RLHF) has contributed to performance improvements in large language models. To tackle its reliance on substantial amounts of human-labeled data, a successful approach i
→