数据效率高的事后无偏策略选项学习

ICMLJul, 2020

数据效率高的事后无偏策略选项学习

Data-efficient Hindsight Off-policy Option Learning

Markus Wulfmeier, Dushyant Rao, Roland Hafner, Thomas Lampe, Abbas Abdolmaleki...

TL;DR研究介绍了一种数据高效的选项学习算法 - 后见之明离线选项（HO2），并证明其在现有基准测试中表现优异，结果强调了时间和操作抽象的重要性以及离线培训和信任区域约束，特别是在来自原始像素输入的具有挑战性的模拟 3D 机器人操作任务中。

Abstract

We introduce hindsight off-policy options (HO2), a data-efficient option learning algorithm. Given any trajectory, HO2 infers likely option choices and backpropagates through the dynamic programming inference procedure to robustly train all policy components off-policy and end-to-end.

hindsight off-policy options option learning algorithm temporal abstraction action abstraction off-policy training

发现论文，激发创造

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

一种在高级和低级学习中可证明高效的基于期权的算法

在 Hierarchical Reinforcement Learning 的框架下，本研究通过使用不同的时间抽象层次交替使用相关算法，提出了一种用于解决有限时间间隔问题的元算法，从而初步理解了高层和低层策略同时学习的实际场景。

Jun, 2024

MO2: 基于模型的离线选项

本研究提出了 Model-Based Offline Options（MO2）算法，支持在连续的状态 - 动作空间中进行样本高效的瓶颈选项发现，以提高对转移域上的探索和值估计，实验结果表明，在复杂的长视程连续控制任务中，MO2 的特性是至关重要的，并且超过了最近的选项学习方法。

Sep, 2022

多任务选项学习与发现在随机路径规划中的应用

应用强化学习模式下，通过数据驱动方法生成抽象状态，计算有效的选项和高级实现路径，从而获得可执行和可解决性的强大保证。

Sep, 2022

基于终止策略的学习选择

将行动选项的学习过程视为多步离线学习的一部分，提出了一种新算法 Q (beta)，可以在任意结束条件下学习最优解，从而解决了行动选项长度对学习效率和解决方案质量的矛盾。

Nov, 2017

有期半马尔科夫决策过程中基于期权的遗憾最小化算法分析

本文研究如何使用分层强化学习来解决复杂任务中规划时间过长的问题，并提供了关于时间抽象的上界，指出通过分层结构可以降低时间抽象，提高学习性能。在此基础上，本文重点探讨选项框架下可用选项的平均持续时间对规划时间和遗憾的影响，并放松了预先训练选项的假设来展示在特定情况下，学习式分层学习可能比标准方法更优。

May, 2023

基于 EM 的可证明分层模仿学习

本文利用潜在变量模型将层次化模仿学习问题转化为参数推断，理论上表征了 Daniel 等人（2016）提出的 EM 方法。研究了种群水平算法作为中间步骤的性能保证，证明了该算法在一定的正则条件下以高概率收敛于真实参数周围的范数球上。据我们所知，这是第一个仅观察原始状态 - 动作对的层次化模仿学习算法的性能保证。

Oct, 2020

用预算强化学习实现选项发现

本研究关注 Reinforcement Learning 中学习层次策略的问题，提出了一种新的学习模型 Budgeted Option Neural Network（BONN）来自动发现决策过程中的选项，并在不同的经典 RL 问题上取得了有趣的定量和定性结果。

Nov, 2016

迭代式规划中的选项发现

发现有用的时间抽象，以选项的形式展现，被广泛认为是将强化学习和规划应用于越来越复杂的领域的关键。在 AlphaZero 中，借鉴专家迭代方法的经验成功，我们提出 Option Iteration 作为选项发现的相似方法，该方法学习一组选项策略以匹配未来某一时点的搜索结果，从而在具有挑战性的规划环境中比原始动作的规划算法和专家迭代的单一策略学习展示出明显的优势。

Oct, 2023

学习鲁棒的选项

本研究介绍了一种名为 ROPI 的算法，用于在存在模型不确定性的情况下学习具有鲁棒性的选项。此外，我们还使用 RO-DQN 解决多个任务并缓解了由于模型不确定性而导致的模型错误，实验结果表明，具有粗糙特征表示时使用线性特征的策略迭代具有固有的鲁棒性。另外，我们的实验结果证明，鲁棒性有助于在深度神经网络之上实现的策略迭代，能够推广到比非鲁棒性的策略迭代更广泛的动力学范围。

Feb, 2018