关键词intrinsic reward function
搜索结果 - 4
- 意图对齐:离线优化传输的模仿学习
通过从环境中观察专家,尽管没有明确的奖励或动作标签,但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法,在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示,定义了内在奖励函数,改善了其他线下强化学习算法在稀疏奖 - ICLR通过创建固定目标来改进内在探索
通过定义定制的内部目标,强化学习中的探索奖励可以引导长期探索。基于计数的方法使用状态访问频率来获得探索奖励。本文发现,从基于计数的方法导出的任何内部奖励函数都是非平稳的,从而为 agent 引入了一个难以优化的目标。我们的工作的关键贡献在于 - 应对挑战环境中机器人探索的在线自适应无导数评估
该论文介绍了一种基于状态价值函数、离线蒙特卡罗训练和基于传感器信息的内在奖励函数的机器人探索方法,该方法能够更好地预测未来状态的价值以更好地指导机器人探索,在挑战性的地下和城市环境中首次应用于真实世界数据集中。
- ICLR互信息状态内在控制
本文提出了一种基于 Intrinsic motivation 的强化学习方法,其奖励函数被定义为智能体状态与周围状态之间的互信息,实现了比以前的方法更好的效果,包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。