朝向因果感知增强学习:基于状态的动作细化时间差分
本篇论文针对强化学习中的安全探索这一问题,提出 PI-SRL 算法在解决复杂任务,包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。
Feb, 2014
本文介绍了一种扩展奖励分解方法的因果学习框架,通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性:因果充分性、稀疏性和正交性,并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程,从而为行动选择提供更有意义和有洞察力的解释。
Dec, 2023
本文介绍了一种基于奖励稀疏性的桥梁方法,将符号行动计划和强化学习相结合,以解决在噪声条件下涉及工具使用和复杂因果依赖的对象操作问题,并成功利用了数据和知识。
May, 2019
通过引入因果图模型来显式建模状态生成过程,并通过主动干预学习环境,优化衍生目标,提出了一种在探索阶段使用干预进行因果结构学习,然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明,我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下,在故障报警环境中有效且稳健,超越了最先进的基准方法。
Feb, 2024
本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习(RL)问题,引入了新的方法将函数逼近与此方法相结合,从而完全不需要使用显式策略参数化。此外,还提出了一种新的政策对偶平均方法,其中可能可以应用更简单的函数逼近技术。在精确策略评估下,我们将这些方法应用于解决不同类别的 RL 问题,为这些方法的全局最优性或局部最优性建立线性收敛速度,探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知,这些算法框架的开发以及它们的收敛分析似乎是文献中新的。
Nov, 2022
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
本文提出了一种名为对比经验回放的训练方法,通过标记与前后奖励差异较大的状态转移,将其加入独立的回放缓冲区,并包括来自类似状态但不同行动的对比样本,该方法在 2D 导航任务上优于标准基于值的方法,对许多离线策略强化学习算法也具有广泛应用价值。
Oct, 2022
本论文针对强化学习中的大行为空间问题进行研究,在提出非 MDP 情况下如何使用 action-binarization 来提高 Extreme State Aggregation(ESA)界限的同时,提供一个 logarithmic 规模上限的 binarized ESA 方案。
Dec, 2020
本文提出了一种自动学习基于状态抽象的离散化模型,命名为 Discrete State-Action Abstraction (DSAA),可以有效地解决强化学习中的任务,并且对探索方案的影响进行了模拟和验证。
Jun, 2022