May, 2024

强化学习中主动多任务学习的力量

TL;DR通过多任务表示学习的方式,我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题,并假设存在一种共同线性表示。我们证明了考虑任务相关性,并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外,由于表示学习,目标任务的样本复杂度仅与潜在空间的维度成线性关系。