悲观离线强化学习的神经网络近似

AAAIDec, 2023

悲观离线强化学习的神经网络近似

Neural Network Approximation for Pessimistic Offline Reinforcement Learning

Di Wu, Yuling Jiao, Li Shen, Haizhao Yang, Xiliang Lu

TL;DR利用深度强化学习和贝尔曼残差的耦合，我们在一些温和假设下，建立了悲观离线强化学习的非渐进估计误差，该结果展示了深度对抗式离线强化学习框架的显式效率，并对算法模型设计提供了指导。

Abstract

deep reinforcement learning (RL) has shown remarkable success in specific offline decision-making scenarios, yet its theoretical guarantees are still under development. Existing works on offline rl theory primari

deep reinforcement learning offline rl neural network approximation bellman residuals function approximation

发现论文，激发创造

具有线性函数逼近的分布鲁棒离线强化学习

本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法，该方法使用历史数据学习分布式鲁棒的策略，包括线性函数逼近的情况，提出了两种算法，得出了第一个样例复杂度的非渐近性结果，并展示了其在实验上的优越性。

Sep, 2022

离线强化学习和模仿学习的联系：一则悲观的故事

提出了一种新的离线强化学习框架，将模仿学习和通用离线强化学习相结合，中心思想是测量从行为策略到专家策略的偏差，进一步研究了针对未知数据分布下的算法设计问题，提出了一种基于悲观策略的下限置信度算法 LCB，在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究，结果揭示了一些有关最优性率的令人惊讶的事实。

Mar, 2021

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

线性函数逼近离线强化学习的统计限制是什么？

本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现，即使有到所有策略的真实价值函数都线性映射到一组给定的特征，并且有关于策略的所有特征的良好聚集离线数据（在强谱条件下），任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。

Oct, 2020

马尔科夫博弈中的离线学习和一般函数逼近

研究离线多智体强化学习在马尔科夫博弈中学习近似均衡，提供适用于一般函数逼近的新框架以处理所有三种均衡，此框架利用 Bellman 一致压缩和数据覆盖条件，与之前的算法框架相比，其保证更好且能够处理更广泛的情况。

Feb, 2023

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

利用线性模型表示形式研究离线强化学习的统计学限制，提出方差感知悲观值迭代算法，重新权重贝尔曼残差以提高离线学习界限。

Mar, 2022

LLQL: 强化学习的逻辑似然 Q-Learning

该研究分析了在线环境和脱机环境中 Bellman 逼近误差的分布特性，并提出了一种新的损失函数 LLoss，其具有更小的方差，并且实验证实了在离线数据集中奖励应该遵循特定分布，这为进一步深入研究提供了有价值的见解。

Jul, 2023

广义函数逼近下的最优保守离线强化学习增广朗格朗日方法

本文基于边缘化重要性取样 (RL) 提出了一种新的离线强化学习算法，以实现一般函数逼近和单策略可集中性的统计最优性，无需不确定性量化，并且通过应用增广 Lagrange 方法，保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同，本文方法证明消除了这种需求，并将规则化器重新解释为 “占用有效性的执行者”，而不是 “保守性的促进者”。

Nov, 2022

为何如此悲观？通过集成估计离线 RL 的不确定性以及为何独立性很重要

本研究中，我们提出了一种名为 MSG 的实用的离线强化学习算法，该算法针对每个 ensemble member 独立计算目标，利用预测值的下限来优化策略，并在流行的离线 RL 基准测试中表现出优异的性能。

May, 2022