Dec, 2022

人在环路强化学习的小样本偏好学习

TL;DR使用多任务学习来实现基于人类反馈的强化学习,通过将偏好模型训练在以前的任务数据上,我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。