连续 MDP 计划中的深度反应策略样本高效迭代下界优化

Mar, 2022

连续 MDP 计划中的深度反应策略样本高效迭代下界优化

Sample-efficient Iterative Lower Bound Optimization of Deep Reactive Policies for Planning in Continuous MDPs

Siow Meng Low, Akshat Kumar, Scott Sanner

TL;DR使用迭代式下限最大化 (ILBO) 方法可提高 DRP（Deep Reactive Policy）策略学习效率，并在连续 MDPs 问题中得到更好的解决方案质量和更低的方差。

Abstract

Recent advances in deep learning have enabled optimization of deep reactive policies (DRPs) for continuous MDP planning by encoding a parametric policy as a deep neural network and exploiting automatic differenti

deep learning parametric policy gradient descent continuous mdps solution quality

发现论文，激发创造

马尔可夫决策过程中最佳策略识别的自适应采样

本文研究在马尔可夫决策过程中，通过生成模型来识别最优策略，提出了 KLB-TS 算法，并提供了其样本复杂度的渐近保证。

Sep, 2020

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

政策导向的设计：离线策略优化的保守测试时间适应

本文提出了 DROP 方法，通过离线学习一个 MBO 分数模型在内部级别上进行优化，在外部级别上进行优化以获得奖励最大化并通过引入行为嵌入和保守规则限制，使得 DROP 具备了测试时间自适应能力。与传统离线 RL 方法相比，DROP 取得了显著的性能提升。

Jun, 2023

机器人黑盒数据高效策略搜索

本文提出一种称为 Black-DROPS 的新型基于模型的强化学习算法，使用黑盒算法代替基于梯度的优化算法，可以更灵活地处理奖励函数和策略，并且在数据效率方面与现有最先进算法相当。在模拟环境和机器人系统上进行验证。

Mar, 2017

IBMDP 中决策树策略学习的演员 - 评论算法的局限性

AI 模型的可解释性使用户能够建立对这些 AI 的信任。我们展示了通过深度强化学习学习决策树的一个方法，从而通过透明地显示输入的关键特征来实现模型的解释性。

Sep, 2023

分布式深度探索的策略包

在复杂环境中进行高效的探索是强化学习中的一大挑战。本研究通过维护一组返回分布估计器副本的方法，即多策略集成（Bag of Policies），实现分布式强化学习的深度探索，提高学习和行为的多样性，并在 ALE Atari 游戏上的实验结果中证明了其在学习过程中的鲁棒性和速度。

Aug, 2023

基于模型的规划提炼出有理论保证的策略改进

通过开发一种从基于模型的规划到策略的蒸馏方法，我们扩展了软负责人 - 评论者算法（SAC）的策略改进步骤，并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。

Jul, 2023

有限探索的双层离线策略优化

我们研究线下强化学习，旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法，通过模拟策略（上层）和值函数（下层）之间的层次交互来解决此任务中的分布偏移问题，尤其是在函数逼近的情况下。

Oct, 2023

鲁棒马尔科夫决策过程的一阶策略优化

研究如何解决具有不确定转移内核的折现，有限状态，有限行动空间 MDP 的强鲁棒性问题，旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比，本文提出了一个名为 RPMD 的策略型一阶方法，并对于两种递增步长的情形，建立了寻找 ε- 最优策略的 O (log (1/ε)) 和 O (1/ε) 迭代复杂度。本文还提出了一种名为 SRPMD 的随机变量。

Sep, 2022

深度反应策略在 MDP 规划中的转移

本论文提出了一种基于深度强化学习技术的 MDP planning domains 的无模型迁移学习算法，通过利用 RDDL 表示中的符号状态配置和转移函数，使得零 / 极少量训练和无需使用领域模拟器的迁移成为可能。

Oct, 2018