Feb, 2024

MENTOR:利用人类反馈和动态距离约束指导分层强化学习

TL;DR通过引入人类反馈和动态距离约束,我们提出了一个通用的分层强化学习框架(MENTOR),作为 “导师” 参与高层策略学习以寻找更好的子目标,并设计了对应于探索 - 利用分离的双重策略以稳定训练。通过动态调整可选子目标的空间,MENTOR 可以生成与低层策略学习过程相匹配的子目标,从容易到困难。大量实验表明,使用少量人类反馈的 MENTOR 在复杂的任务中显著提高了稀疏奖励的效果。