在观测设置中去卷积强化学习

Dec, 2018

Deconfounding Reinforcement Learning in Observational Settings

Chaochao Lu, Bernhard Schölkopf, José Miguel Hernández-Lobato

TL;DR该论文提出了一种通用的强化学习算法，针对观测数据中未观察到的因素（混杂因素）影响观察到的行为和奖励，学习从历史数据中得出好的策略，使用修改的 OpenAI Gym 环境和 MNIST 数据集开发了新的基准测试，并且证明了该算法在混淆的环境中的优越性。

Abstract

We propose a general formulation for addressing reinforcement learning (RL) problems in settings with observational data. That is, we consider the problem of learning good policies solely from historical data in

reinforcement learning observational data confounders actor-critic method benchmark

发现论文，激发创造

混淆鲁棒政策改进

研究使用观察数据学习个性化决策策略时如何考虑可能的未观测混杂因素以及最小化候选策略的最坏估计后悔的方法和算法，以在保证安全和关注证据改进的前提下得到可靠的个性化治疗策略。

May, 2018

可证明高效的因果强化学习在混淆观察数据中

本研究探讨如何将线下收集的观测数据纳入在线学习过程，提高深度强化学习在自动驾驶和个性化医疗等关键场景中的应用可行性，提出了去除混杂因素的乐观值迭代算法，并证明当混杂的观测数据更具信息量时，该算法能够比纯在线学习方法获得更小的后悔系数，是因果强化学习领域的重要一步。

Jun, 2020

无限时间序列强化学习中具有混淆鲁棒性的策略评估

通过数据策略辅助下的敏感性模型，我们开发了一种强健的方法，针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量，估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明，随着我们收集更多混淆数据，我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划，但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似，并在实证中演示了所得到的边界。

Feb, 2020

基于强化学习的推荐系统中带有隐含混杂因素的环境重构

本文提出了一个名为 deconfounded multi-agent environment reconstruction (DEMER) 的方法，通过在多智能体生成对抗模仿学习框架中引入隐藏策略，采用兼容的鉴别器训练策略来学习环境及其潜在的干扰因素，应用于司机方案推荐，有效地重建了隐藏的干扰因素，并在真实应用实验中得到了显著改进建议的表现。

Jul, 2019

非可识别隐藏混淆条件下的德尔菲离线强化学习

本文提出了解决 offline reinforcement learning 中的隐蔽性混杂效应问题的方法，借助与观察相容的世界模型的不同处理，提出了 delphic 不确定性问题，试图减少混杂偏差和提高 offline RL 算法的实际效果。

Jun, 2023

利用观测和干预数据的因果强化学习

本文探讨了利用 Causal Inference 理论和 Latent-based causal transition model 在 offline data 的基础上，使用 observational data 可以有效地提高 model-based RL agents 的 generalization guarantees 问题。

Jun, 2021

看到并不意味着信仰：针对虚假相关性的强化学习

本研究考虑了强化学习中因未观测潜在因素引起的虚假相关性所导致的稳健性问题，提出了集成马尔可夫决策过程和状态混淆技术的算法 RSC-MDPs，并在真实的自动驾驶和操作环境中验证了其卓越性能。

Jul, 2023

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的 Off-policy Evaluation 问题，本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从 Off-policy 数据中识别政策价值。

Jul, 2020

离线观察的混合增强学习

我们考虑了混合强化学习的情境，在该情境下，智能体可以同时访问离线数据和在线交互式访问。虽然强化学习研究通常假设离线数据包含完整的动作、奖励和转换信息，但仅包含状态信息的数据集（也称为仅观测数据集）更为通用、丰富和实际。这激发了我们对具有仅观测离线数据集框架的混合强化学习的研究。在提供环境复位模型（即，可以复位到任何状态的模型）的情况下，可以解决与离线数据中的最佳策略竞争的任务。然而，我们展示了在仅获得较弱的追踪模型时（即，只能复位到初始状态并必须通过环境产生完整轨迹），且没有对离线数据的可接受性假设的情况下，问题的困难性证据。在接受性假设下 - 即离线数据实际上可以由我们考虑的策略类产生 - 我们提出了首个可以与利用复位模型的算法性能相匹配的追踪模型设置中的算法。我们还进行了概念验证实验，表明我们的算法在实践中的有效性。

Jun, 2024

借势中介器的悲观因果强化学习与混淆线下数据

通过采用基于前门准则的中介变量来消除混淆偏差，以及采用悲观原则来解决由候选策略引起的行为分布和生成观测数据的行为策略之间的分布偏移，我们提出了一种新颖的策略学习算法 PESsimistic CAusal Learning (PESCAL)，并证明了算法的理论保证，并利用来自一家领先乘车平台的离线数据集的仿真和真实世界实验证明了其有效性。

Mar, 2024