借势中介器的悲观因果强化学习与混淆线下数据

Mar, 2024

借势中介器的悲观因果强化学习与混淆线下数据

Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data

Danyang Wang, Chengchun Shi, Shikai Luo, Will Wei Sun

TL;DR通过采用基于前门准则的中介变量来消除混淆偏差，以及采用悲观原则来解决由候选策略引起的行为分布和生成观测数据的行为策略之间的分布偏移，我们提出了一种新颖的策略学习算法 PESsimistic CAusal Learning (PESCAL)，并证明了算法的理论保证，并利用来自一家领先乘车平台的离线数据集的仿真和真实世界实验证明了其有效性。

Abstract

In real-world scenarios, datasets collected from randomized experiments are often constrained by size, due to limitations in time and budget. As a result, leveraging large observational datasets becomes a more attractive option for achieving high-quality policy learning. However, most existing offline reinforcement learning (RL) methods depend on two key ass

observational data offline reinforcement learning causal learning confounding bias distributional shift

发现论文，激发创造

面对混淆因素的悲观主义：部分可观察马尔可夫决策过程中可证明高效的离线强化学习

研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法，并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题，提出了代理变量悲观策略优化（P3O）算法。

May, 2022

具有混淆偏差和缺失观察数据的情境赌博政策学习的统一框架

研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题，提出了一种名为 CAP 的新算法，在数据的基础上形成奖励函数、建立置信区间，并通过悲观主义的方式贪心地采取行动来学习最优策略。

Mar, 2023

利用观测和干预数据的因果强化学习

本文探讨了利用 Causal Inference 理论和 Latent-based causal transition model 在 offline data 的基础上，使用 observational data 可以有效地提高 model-based RL agents 的 generalization guarantees 问题。

Jun, 2021

悲观引导的不确定性驱动离线强化学习

本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL)，它通过引入一种 Q 函数的不确定度来量化不确定性，并以此进行悲观更新，以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明，相比现有算法，PBRL 具有更好的性能表现。

Feb, 2022

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

离线强化学习的悲观 Q 学习：朝着最优样本复杂性的方向

本文研究了离线强化学习的一个悲观策略 Q-learning，针对有限时间的马尔科夫决策过程，通过单一策略密度函数的集中性假设，对其样本复杂度进行了表征，并提出了一种方差减小的悲观 Q-learning 算法来达到接近最优的样本复杂度。研究结果表明，在离线强化学习中，结合悲观策略和方差减小的模型无关型算法能够提高效率。

Feb, 2022

基于模型的离线强化学习中的悲观情况调节动态信念

通过维护动态神经网络的信念分布，以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计，可以最大限度地利用静态数据集，实现基于模型的离线强化学习。

Oct, 2022

利用中介分析强化学习因果变量

采用因果分析方法构建强化学习智能体的新策略，通过学习简单的因果图，利用中介分析技术来获得优化目标并最小化代价函数，估计条件期望以及广义贝尔曼方程进行训练维护环境的因果关系，并取得显著改善

Oct, 2020

离线强化学习的状态感知邻近悲观算法

本文提出了一种基于状态感知的近端悲观算法（SA-PP），通过利用学习策略与离线数据集之间的折扣静态状态分布比率，在状态级别上调节行为正则化的程度，以实现更合适的悲观学习，为此还提出了一种名为状态感知保守 Q-Learning（SA-CQL）的新算法，实验结果表明在标准离线学习基准测试中 SA-CQL 取得了最高平均收益。

Nov, 2022