Oct, 2023

迭代式规划中的选项发现

TL;DR发现有用的时间抽象,以选项的形式展现,被广泛认为是将强化学习和规划应用于越来越复杂的领域的关键。在 AlphaZero 中,借鉴专家迭代方法的经验成功,我们提出 Option Iteration 作为选项发现的相似方法,该方法学习一组选项策略以匹配未来某一时点的搜索结果,从而在具有挑战性的规划环境中比原始动作的规划算法和专家迭代的单一策略学习展示出明显的优势。