Oct, 2023

异步人类反馈下的自主机器人强化学习

TL;DR实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战,但本研究描述了一个实际的强化学习系统,通过在真实环境中进行训练,并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下,通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明,该系统能够有效地学习行为。