因果双线性表示:面向通用的离线模型化强化学习
本文提出了一种基于模型的离线策略优化算法(MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
May, 2020
本文研究了如何将离线数据转换为强化学习模型的有效训练,通过使用无监督学习目标进行预训练的方法,本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案,并通过实验证明了其有效性。
Feb, 2021
本文提出了一种Offline Model-based RL with Adaptive Behavioral Priors(MABE)算法,利用数据集的动力学模型和行为先验知识相结合,大大提高了离线RL策略的性能和泛化能力,在D4RL离线RL基准测试中表现优异,且具有跨域泛化性能。
Jun, 2021
本文探讨了利用Causal Inference理论和Latent-based causal transition model在offline data的基础上,使用observational data可以有效地提高model-based RL agents的generalization guarantees问题。
Jun, 2021
本文提出了一种迭代离线模型学习(MBRL)框架,其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限,从而解决了动态模型和策略学习之间的目标不匹配问题,从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。
Oct, 2022
该研究提出了一种名为BPR的学习状态表示的简单有效方法,结合离线RL算法在多个控制基准测试中表现出明显的改进,其理论上可以实现保守算法的策略改进保证或产生策略值下限的算法。
Nov, 2022
通过分析发现,离线强化学习任务中缺失的状态转换对于等价关系原则特别有害,导致估计无效。同时,奖励缩放在界定等价度量和其引发的值误差的尺度方面起着至关重要的作用。基于这些发现,我们提出在离线强化学习环境中应用期望分为运算符进行表示学习,从而防止对不完整数据进行过拟合。与此同时,通过引入适当的奖励缩放策略,我们避免了表示空间中特征崩溃的风险。我们在两个最先进的基于等价关系的算法MICo和SimSR上实现了这些建议,并在两个基准套件D4RL和Visual D4RL上展示了性能提升。代码可在https://github.com/zanghyu/Offline_Bisimulation中找到。
Oct, 2023
通过因果推论而非策略正则化方法,本文提出了 MOOD-CRL(基于模型的线下 OOD 自适应因果强化学习)算法,旨在解决离线策略训练中的外推挑战。通过基于数据不变性、基于物理学的定性因果图和观测数据,我们开发了一种新的学习方案,以学习定量结构因果模型,从而赋予 CNF 预测和反事实推理能力,对顺序决策任务具有较高的 OOD 适应潜力。我们基于 CNF 的线下 RL 方法通过实证评估得到验证,明显优于无模型和基于模型的方法。
May, 2024
基于模型的离线强化学习可以在不需要额外或不道德的探索的情况下充分利用预先收集到的数据集。然而,将基于模型的离线强化学习应用于在线系统面临挑战,主要是由于在线系统生成的数据集高度次优(充满噪声)和多样化的特点。为了解决这些问题,我们引入了适用于高度次优和资源受限的在线场景的因果激发强化学习(CPRL)框架。CPRL 的初始阶段涉及到引入隐藏参数块因果激发动态(Hip-BCPD)来建模环境动态。该方法利用不变因果激发并对齐隐藏参数以推广到新的多样化的在线用户。在随后的阶段,通过可重用技能的融合来训练单一策略以应对多个任务,从而避免了从头开始训练的需要。在具有不同噪声水平的数据集上进行的实验证明了我们所提出的方法在分布外和嘈杂环境中可以做出稳健的决策并优于现有的算法。此外,我们还分别验证了 Hip-BCPD 和技能重用策略对性能稳健性的贡献,并对 Hip-BCPD 的可视化结构和子技能的可解释性进行了进一步分析。我们发布了我们的源代码和第一个用于精确医疗决策任务的真实世界医疗数据集。
Jun, 2024
本研究解决了模型基强化学习中对数据量不足和覆盖不全的问题。提出的 Morse Model-based offline RL (MoMo) 方法引入了反探索的理念,通过反探索奖励与策略约束相结合,优化价值评估并有效处理分布外状态。实验结果表明,MoMo 在多个 D4RL 数据集上的表现优于现有的模型基和无模型基的基线方法。
Aug, 2024