Mar, 2024

利用混合专家的课程强化学习获取多样化技能

TL;DR强化学习中的多样技能学习,使用混合专家方法和最大熵目标优化每个专家的上下文分布,以激励在相似情境中学习多样技能。利用基于能量的模型来表示每个专家的上下文分布,通过标准策略梯度目标有效地训练它们,进一步解决了环境未知上下文概率空间中的难以处理的不连续性和多模态问题,通过在挑战性的机器人模拟任务中展示,Di-SkilL 可以学习出多样且高效的技能。