非可识别隐藏混淆条件下的德尔菲离线强化学习

Jun, 2023

非可识别隐藏混淆条件下的德尔菲离线强化学习

Delphic Offline Reinforcement Learning under Nonidentifiable Hidden Confounding

Alizée Pace, Hugo Yèche, Bernhard Schölkopf, Gunnar Rätsch, Guy Tennenholtz

TL;DR本文提出了解决 offline reinforcement learning 中的隐蔽性混杂效应问题的方法，借助与观察相容的世界模型的不同处理，提出了 delphic 不确定性问题，试图减少混杂偏差和提高 offline RL 算法的实际效果。

Abstract

A prominent challenge of offline reinforcement learning (RL) is the issue of hidden confounding: unobserved variables may influence both the actions taken by the agent and the observed outcomes. →

offline reinforcement learning hidden confounding delphic uncertainty identifiability sepsis management

发现论文，激发创造

基于不确定性的分布离线强化学习

提出了一种不确定性感知的离线强化学习方法，同时解决了认知不确定性和环境随机性，能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估，证明了其卓越的性能。

Mar, 2024

无限时间序列强化学习中具有混淆鲁棒性的策略评估

通过数据策略辅助下的敏感性模型，我们开发了一种强健的方法，针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量，估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明，随着我们收集更多混淆数据，我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划，但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似，并在实证中演示了所得到的边界。

Feb, 2020

在观测设置中去卷积强化学习

该论文提出了一种通用的强化学习算法，针对观测数据中未观察到的因素（混杂因素）影响观察到的行为和奖励，学习从历史数据中得出好的策略，使用修改的 OpenAI Gym 环境和 MNIST 数据集开发了新的基准测试，并且证明了该算法在混淆的环境中的优越性。

Dec, 2018

面对混淆因素的悲观主义：部分可观察马尔可夫决策过程中可证明高效的离线强化学习

研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法，并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题，提出了代理变量悲观策略优化（P3O）算法。

May, 2022

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

离线强化学习中的选择性不确定性传播

研究了有限时间内的离线强化学习问题，提出了一种基于动作影响估计的算法，可在统计上简单实例上胜过传统的悲观方法。

Feb, 2023

借势中介器的悲观因果强化学习与混淆线下数据

通过采用基于前门准则的中介变量来消除混淆偏差，以及采用悲观原则来解决由候选策略引起的行为分布和生成观测数据的行为策略之间的分布偏移，我们提出了一种新颖的策略学习算法 PESsimistic CAusal Learning (PESCAL)，并证明了算法的理论保证，并利用来自一家领先乘车平台的离线数据集的仿真和真实世界实验证明了其有效性。

Mar, 2024

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

混淆鲁棒政策改进

研究使用观察数据学习个性化决策策略时如何考虑可能的未观测混杂因素以及最小化候选策略的最坏估计后悔的方法和算法，以在保证安全和关注证据改进的前提下得到可靠的个性化治疗策略。

May, 2018

悲观离线强化学习的神经网络近似

利用深度强化学习和贝尔曼残差的耦合，我们在一些温和假设下，建立了悲观离线强化学习的非渐进估计误差，该结果展示了深度对抗式离线强化学习框架的显式效率，并对算法模型设计提供了指导。

Dec, 2023