可证明高效的因果强化学习在混淆观察数据中

Jun, 2020

可证明高效的因果强化学习在混淆观察数据中

Provably Efficient Causal Reinforcement Learning with Confounded Observational Data

Lingxiao Wang, Zhuoran Yang, Zhaoran Wang

TL;DR本研究探讨如何将线下收集的观测数据纳入在线学习过程，提高深度强化学习在自动驾驶和个性化医疗等关键场景中的应用可行性，提出了去除混杂因素的乐观值迭代算法，并证明当混杂的观测数据更具信息量时，该算法能够比纯在线学习方法获得更小的后悔系数，是因果强化学习领域的重要一步。

Abstract

Empowered by expressive function approximators such as neural networks, deep reinforcement learning (DRL) achieves tremendous empirical successes. However, learning expressive function approximators requires collecting a large dataset (interventional data) by interacting with the envir

发现论文，激发创造

在观测设置中去卷积强化学习

该论文提出了一种通用的强化学习算法，针对观测数据中未观察到的因素（混杂因素）影响观察到的行为和奖励，学习从历史数据中得出好的策略，使用修改的OpenAI Gym环境和MNIST数据集开发了新的基准测试，并且证明了该算法在混淆的环境中的优越性。

Dec, 2018

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

利用观测和干预数据的因果强化学习

本文探讨了利用Causal Inference理论和Latent-based causal transition model在offline data的基础上，使用observational data可以有效地提高model-based RL agents的generalization guarantees问题。

Jun, 2021

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

面对混淆因素的悲观主义：部分可观察马尔可夫决策过程中可证明高效的离线强化学习

研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法，并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题，提出了代理变量悲观策略优化（P3O）算法。

May, 2022

非可识别隐藏混淆条件下的德尔菲离线强化学习

本文提出了解决offline reinforcement learning 中的隐蔽性混杂效应问题的方法，借助与观察相容的世界模型的不同处理，提出了delphic不确定性问题，试图减少混杂偏差和提高offline RL算法的实际效果。

Jun, 2023

在线强化学习的样本复杂度界定

在线强化学习中的数据效率是一个核心问题，本文针对有限时间不均匀马尔可夫决策过程，证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性，并且没有任何预烧成本，其样本复杂度也是最优的。

Jul, 2023

关于样本高效的离线强化学习：数据多样性，后验采样和更多

我们提出了一个新颖的基于后验采样的离线RL算法，该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能，并且具有频率主义的亚优性界限。

Jan, 2024

借势中介器的悲观因果强化学习与混淆线下数据

通过采用基于前门准则的中介变量来消除混淆偏差，以及采用悲观原则来解决由候选策略引起的行为分布和生成观测数据的行为策略之间的分布偏移，我们提出了一种新颖的策略学习算法 PESsimistic CAusal Learning (PESCAL)，并证明了算法的理论保证，并利用来自一家领先乘车平台的离线数据集的仿真和真实世界实验证明了其有效性。

Mar, 2024

因果双线性表示：面向通用的离线模型化强化学习

通过捕获因果表达来减少分布偏移和减轻目标不匹配问题的影响，本研究介绍了BECAUSE算法，用于离线模型驱动强化学习的主要误差源的识别，并在18个任务上的全面评价证明了其优越性能，同时提供了BECAUSE的理论分析，证明了其错误边界和样本效率。

Jul, 2024