Jun, 2024

DIPPER:直接优化偏好以加速基元级层次强化学习

TL;DRDIPPER 是一种高效的分层方法,结合直接优化和强化学习,在从人类偏好数据中学习更高级策略和更低级策略的基础上,解决了从人类偏好数据学习复杂机器人任务的挑战。