递归强化学习
该研究提出了递归反向 Q-learning(RBQL)代理,通过引入基于模型的方法,探索和构建环境模型,以更好地解决确定性问题。在达到终止状态后,该代理通过这个模型递归地向后传播其价值,从而实现对每个状态的最优值评估,避免了冗长的学习过程。在迷宫中寻找最短路径的示例中,该代理明显优于普通的 Q-learning 代理。
Apr, 2024
提出了一个形式框架,为定义不同形式目标的 RL 任务之间的转换提供了形式化定义,研究了这种转换的保持最优策略、收敛和稳健性的概念,证明了从 LTL 规范到基于奖励的规范的某些缩减不存在,证明了 RL 算法不存在 PAC-MDP 保证安全规范。
Oct, 2021
提出了一种新颖的模型无关的集合强化学习算法,通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法,并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出,获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比,数值实验结果显示,该算法平均策略误差可以减少高达 55%,运行时复杂度可以减少高达 50%,并验证了理论分析中的假设。
Feb, 2024
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
本文提出了一种采用马尔可夫决策过程(MDP)的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略,同时开发了一个转移模型估计器来优化数据利用,实验结果表明该算法在自适应学习领域有着较高的效率。
Apr, 2020
个性化机器学习中,我们提出了一种名为 r-MDPs 的框架,通过与一小组代表性策略的交互来满足多样化的用户群体,并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法,我们在多个模拟环境中进行了实证研究,展示了这些算法在有限的策略预算下实现有意义的个性化,并具有可扩展性,能够适应更大的策略预算。
Jan, 2024
考虑在马尔可夫决策过程中找到一种确定性策略,该策略统一(在所有状态下)最大化一种奖励,同时受到不同奖励的概率约束。本文提出了一种适当的约束强化学习算法来防止学习不稳定性,并使用递归约束描述了我们的问题的动机和适用性。
Jan, 2022
提出了一种可验证和组合强化学习的框架,其中包含一组学习单独子任务的子系统,并填充入标准任务的高层模型,将各个子任务组合成全部任务,成功证明了该框架的实用性和有效性。
Jun, 2021
本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果,并证明 Thompson 采样在随机环境中是渐进最优的。此外,作者构建了一个大但可计算的类,展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。
Nov, 2016