深度反应策略在 MDP 规划中的转移

NIPSOct, 2018

深度反应策略在 MDP 规划中的转移

Transfer of Deep Reactive Policies for MDP Planning

Aniket Bajpai, Sankalp Garg, Mausam

TL;DR本论文提出了一种基于深度强化学习技术的 MDP planning domains 的无模型迁移学习算法，通过利用 RDDL 表示中的符号状态配置和转移函数，使得零 / 极少量训练和无需使用领域模拟器的迁移成为可能。

Abstract

Domain-independent probabilistic planners input an MDP description in a factored representation language such as PPDDL or RDDL, and exploit the specifics of the representation for faster planning. Traditional alg

probabilistic planners factored representation language deep reactive policies transfer learning mdp planning

发现论文，激发创造

针对 RDDL 规划的大小无关神经网络转移

本文提出了一种针对不同规模的 RDDL MDP 问题进行神经网络迁移学习的方法，其关键创新包括状态编码器和参数绑定的动作解码器，该方法在 SysAdmin 和 Game Of Life 领域具有卓越的性能表现。

Feb, 2019

符号网络：针对关系马尔可夫过程的广义神经策略

通过训练一组共享参数的 SymNet 模型，将 RDDL 的关系建模与神经网络结合，达到单次前向传播即可获得包括实例无关的策略和值函数在内的更加复杂的泛化策略，优于随机和现有策略，适用于九个 IPP C 领域。

Feb, 2020

强化学习规范转换框架

提出了一个形式框架，为定义不同形式目标的 RL 任务之间的转换提供了形式化定义，研究了这种转换的保持最优策略、收敛和稳健性的概念，证明了从 LTL 规范到基于奖励的规范的某些缩减不存在，证明了 RL 算法不存在 PAC-MDP 保证安全规范。

Oct, 2021

在连续任务中利用导师进行领域知识转移

将顾问整合到深度确定性策略梯度（DDPG）算法，以允许将领域知识以预先学习的政策或预定义的关系的形式整合到学习过程中，以加速学习和改善政策。

Feb, 2021

使用深度神经网络学习广义反应策略

本文提出了一种新的学习规划的方法，使用深度神经网络学习 “广义反应策略”（GRP），以映射问题实例和状态到动作，并用于自动学习启发式函数，通过对两个困难的规划问题领域的广泛实验，我们展示了使用我们的方法可以简化决策制定的复杂性和减少人类干预。

Aug, 2017

从多个 MDPs 转移

本文研究利用源任务采集的经验来加速强化学习算法的传递强化学习方法，介绍了在源任务与目标任务之间相似度的基础上适应转移过程的新算法，并在一个连续链问题中报告了描绘性实验结果。

Aug, 2011

深度强化学习用于自适应学习系统

本文提出了一种采用马尔可夫决策过程（MDP）的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略，同时开发了一个转移模型估计器来优化数据利用，实验结果表明该算法在自适应学习领域有着较高的效率。

Apr, 2020

基于分布鲁棒的强化学习基础探讨

鉴于训练和部署之间环境变化的需求，我们对分布稳健强化学习（DRRL）的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程（DRMDPs）为核心的综合建模框架，我们严谨地构建了适用于决策者和对手的各种建模属性。此外，我们还研究了对手引起的偏移的灵活性，并检验了动态规划原理的存在条件。从算法的角度来看，动态规划原理的存在具有重要意义，因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。

Nov, 2023

具有策略预算的个性化强化学习

个性化机器学习中，我们提出了一种名为 r-MDPs 的框架，通过与一小组代表性策略的交互来满足多样化的用户群体，并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法，我们在多个模拟环境中进行了实证研究，展示了这些算法在有限的策略预算下实现有意义的个性化，并具有可扩展性，能够适应更大的策略预算。

Jan, 2024

利用强化学习进行神经运动规划

本研究通过比较监督式学习与强化学习算法，提出了一个适用于动作规划领域的 DDPG-MP 算法，该算法有助于解决运动规划中数据不足的问题，并在新领域的规划中实现了较快速度。

Jun, 2019