本文提出了一种针对不同规模的 RDDL MDP 问题进行神经网络迁移学习的方法,其关键创新包括状态编码器和参数绑定的动作解码器,该方法在 SysAdmin 和 Game Of Life 领域具有卓越的性能表现。
Feb, 2019
通过训练一组共享参数的 SymNet 模型,将 RDDL 的关系建模与神经网络结合,达到单次前向传播即可获得包括实例无关的策略和值函数在内的更加复杂的泛化策略,优于随机和现有策略,适用于九个 IPP C 领域。
Feb, 2020
提出了一个形式框架,为定义不同形式目标的 RL 任务之间的转换提供了形式化定义,研究了这种转换的保持最优策略、收敛和稳健性的概念,证明了从 LTL 规范到基于奖励的规范的某些缩减不存在,证明了 RL 算法不存在 PAC-MDP 保证安全规范。
Oct, 2021
将顾问整合到深度确定性策略梯度(DDPG)算法,以允许将领域知识以预先学习的政策或预定义的关系的形式整合到学习过程中,以加速学习和改善政策。
Feb, 2021
本文提出了一种新的学习规划的方法,使用深度神经网络学习 “广义反应策略”(GRP),以映射问题实例和状态到动作,并用于自动学习启发式函数,通过对两个困难的规划问题领域的广泛实验,我们展示了使用我们的方法可以简化决策制定的复杂性和减少人类干预。
Aug, 2017
本文研究利用源任务采集的经验来加速强化学习算法的传递强化学习方法,介绍了在源任务与目标任务之间相似度的基础上适应转移过程的新算法,并在一个连续链问题中报告了描绘性实验结果。
Aug, 2011
本文提出了一种采用马尔可夫决策过程(MDP)的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略,同时开发了一个转移模型估计器来优化数据利用,实验结果表明该算法在自适应学习领域有着较高的效率。
Apr, 2020
鉴于训练和部署之间环境变化的需求,我们对分布稳健强化学习(DRRL)的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程(DRMDPs)为核心的综合建模框架,我们严谨地构建了适用于决策者和对手的各种建模属性。此外,我们还研究了对手引起的偏移的灵活性,并检验了动态规划原理的存在条件。从算法的角度来看,动态规划原理的存在具有重要意义,因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。
Nov, 2023
个性化机器学习中,我们提出了一种名为 r-MDPs 的框架,通过与一小组代表性策略的交互来满足多样化的用户群体,并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法,我们在多个模拟环境中进行了实证研究,展示了这些算法在有限的策略预算下实现有意义的个性化,并具有可扩展性,能够适应更大的策略预算。
Jan, 2024
本研究通过比较监督式学习与强化学习算法,提出了一个适用于动作规划领域的 DDPG-MP 算法,该算法有助于解决运动规划中数据不足的问题,并在新领域的规划中实现了较快速度。
Jun, 2019