迭代式规划中的选项发现

Oct, 2023

Iterative Option Discovery for Planning, by Planning

Kenny Young, Richard S. Sutton

TL;DR发现有用的时间抽象，以选项的形式展现，被广泛认为是将强化学习和规划应用于越来越复杂的领域的关键。在 AlphaZero 中，借鉴专家迭代方法的经验成功，我们提出 Option Iteration 作为选项发现的相似方法，该方法学习一组选项策略以匹配未来某一时点的搜索结果，从而在具有挑战性的规划环境中比原始动作的规划算法和专家迭代的单一策略学习展示出明显的优势。

Abstract

Discovering useful temporal abstractions, in the form of options, is widely thought to be key to applying reinforcement learning and

temporal abstractions options reinforcement learning policy learning planning

发现论文，激发创造

学习鲁棒的选项

本研究介绍了一种名为 ROPI 的算法，用于在存在模型不确定性的情况下学习具有鲁棒性的选项。此外，我们还使用 RO-DQN 解决多个任务并缓解了由于模型不确定性而导致的模型错误，实验结果表明，具有粗糙特征表示时使用线性特征的策略迭代具有固有的鲁棒性。另外，我们的实验结果证明，鲁棒性有助于在深度神经网络之上实现的策略迭代，能够推广到比非鲁棒性的策略迭代更广泛的动力学范围。

Feb, 2018

多任务选项学习与发现在随机路径规划中的应用

应用强化学习模式下，通过数据驱动方法生成抽象状态，计算有效的选项和高级实现路径，从而获得可执行和可解决性的强大保证。

Sep, 2022

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

Successor Options: 基于继承关系的强化学习选项发现框架

探讨一种名为 Successor Options 的新方法，该方法使用 Successor Representations 构建状态空间模型，通过学习伪奖励来了解内部操作策略，并且适用于高维空间的机器人控制环境。

May, 2019

朝向实现更快规划的选项发现

在序贯机器中使用 options 以提高计划的速度并减少计算量的算法研究。

May, 2022

基于强化学习的路径规划：一种策略迭代方法

该研究针对强化学习参数的设计空间进行了设计空间探索，提出了基于自动调谐器的序数回归方法，可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。

Mar, 2023

一种在高级和低级学习中可证明高效的基于期权的算法

在 Hierarchical Reinforcement Learning 的框架下，本研究通过使用不同的时间抽象层次交替使用相关算法，提出了一种用于解决有限时间间隔问题的元算法，从而初步理解了高层和低层策略同时学习的实际场景。

Jun, 2024

基于深度后继表示的特征值选项发现

本研究论文以最近提出的使用表征学习方法指导 option 发现过程的想法为重点，扩展了现有算法以适应具有随机转换且不存在人工特征的环境，并提出了一种算法，用于从原始图像中学习非线性状态表示，从而发现 eigenoptions，从传统表格模型和 Atari 2600 游戏中的实验结果表明，该算法具有潜力。

Oct, 2017

通过元学习子目标发现选项

使用元梯度法发现多任务强化学习环境中有用的选项的新方法，该方法使用一个管理器将发现的任务选项和基本操作结合在一起，并通过神经网络优化子目标的奖励和终止函数，实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项，并且帮助初学者的学习速度更快。

Feb, 2021

数据效率高的事后无偏策略选项学习

研究介绍了一种数据高效的选项学习算法 - 后见之明离线选项（HO2），并证明其在现有基准测试中表现优异，结果强调了时间和操作抽象的重要性以及离线培训和信任区域约束，特别是在来自原始像素输入的具有挑战性的模拟 3D 机器人操作任务中。

Jul, 2020