Feb, 2020

基于互信息的状态控制方法用于内在驱动强化学习

TL;DR基于内部驱动的强化学习算法以目标状态和可控状态之间的相互信息为内在目标,在机器人操纵和导航任务中取得了明显的成果。