Jul, 2023

基于人类评估反馈的原始技能基础机器人学习

TL;DRSEED 是一个结合了人类反馈的强化学习和基于原始技能的强化学习的新框架,通过减少人类的工作量和增加训练过程的安全性,有效地解决了长期任务中的样本低效性和安全性问题。SEED 在五个具有不同复杂度的操作任务上表现出了比其他强化学习算法更高的样本效率和安全性,并且与其他 RLHF 方法相比,也大大减少了人类的工作量。