Jun, 2018

结构化强化学习的探索

TL;DR研究了基于有限状态和行动空间的强化学习问题,探讨了如何最小化次优(状态、行动)对的探索率。得出特定于问题的遗憾下限,并提出一种新的学习算法 DEL (Directed Exploration Learning),让算法的性能达到遗憾下限,且对于 Lipschitz 连续性的 MDP,简化版 DEL 算法仍能高效利用其结构。