Jul, 2024

强化学习的受限内在动机

TL;DR该研究探讨了在无奖励预训练和探索过程中利用内在动机进行强化学习时出现的两个基本问题:如何设计有效的内在目标,并在探索过程中减少内在目标引入的偏差。通过提出具有约束的内在动机方法,在无奖励预训练和探索过程中解决了现有方法存在的静态技能、有限状态覆盖、样本效率低和次优性等问题,并在多个MuJoCo机器人环境中进行了验证和性能对比。