Feb, 2020

连续控制中的状态抽象学习与迁移

TL;DR使用简单的算法和良好的表示能否解决困难的强化学习问题?本文回答了这个问题,并提出了一种将连续状态空间抽象为离散的学习算法,将其转移到未知问题中以实现有效的学习,并证明学习到的抽象保持有界的值损失,实验证明该抽象使 tabular Q-Learning 在未知任务中有效学习。