POPGym：部分可观察强化学习基准测试

Mar, 2023

POPGym：部分可观察强化学习基准测试

POPGym: Benchmarking Partially Observable Reinforcement Learning

Steven Morad, Ryan Kortvelesy, Matteo Bettini, Stephan Liwicki, Amanda Prorok

TL;DR实际应用中的强化学习（RL）通常是部分可观测的，并且需要记忆。本文提出了一个名为 POPGym 的库，包含多个具有多个困难程度的部分可观测环境和 13 种记忆模型基准实现，并在流行的 RLlib 框架上实现了高层内存 API 和记忆基线，具有可插拔性，且执行了迄今为止最大的 RL 内存模型比较。

Abstract

Real world applications of reinforcement learning (RL) are often partially observable, thus requiring memory. Despite this, partial observability is still largely ignored by contemporary RL →

reinforcement learning partial observability memory model benchmarks rllib framework

发现论文，激发创造

可证明高效的部分可观测动态系统强化学习

通过提出一种新的基于双线性 Actor-Critic 框架的学习算法，该算法可以对部分可观察的动态系统进行部分可观察的强化学习，并且在特定的情形下（如欠完备的可观察性模型）具有较高的性能表现。

Jun, 2022

POPCORN：部分观察预测约束强化学习

本文提出了一种新的优化目标，以批处理离线策略为特点，即使在某些观测对于规划无关紧要时，该方法也能产生高性能策略和高质量的生成模型，并将其应用于合成样例和一个具有挑战性的医疗决策问题。

Jan, 2020

部分可观测环境中的离线策略评估

该论文研究了部分可观察环境下的强化学习离线策略评估的问题，针对部分可观察的马尔可夫决策过程（POMDPs）建立了离线策略评估的模型，并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。

Sep, 2019

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度 RL 技术。

Jun, 2022

部分可观察的强化学习何时不可怕？

该论文介绍了应用于部分可观测的情况下的强化学习模型，探讨了在一些特殊情况下该模型的使用，提出了一种通过乐观估计与极大似然估计相结合的简单算法，能够保证在这些特殊情况下有多项式样本复杂度可行的方法。

Apr, 2022

一种适用于情节式 POMDP 的 PAC RL 算法

本文研究了部分可观的强化学习问题，并提出了首个具有多项式边界的算法，用于处理一类重要的 POMDP 问题，该算法基于最近的方法学方法来估计潜在变量模型。

May, 2016

强化学习中泛化的困难之处：认知 POMDP 和隐式部分可观测性

本文研究了强化学习系统在现实世界中部署的中心挑战 —— 泛化，并展示了强化学习问题的时序结构需要新的泛化方法，同时介绍了一种新的部分可观察马尔可夫决策过程（POMDP）解决方案 —— 认知 POMDP，通过简单的基于集成的技术解决了部分可观测性问题，证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。

Jul, 2021

ContainerGym：一个面向资源分配的现实强化学习基准测试

ContainerGym 是一个受到现实世界工业资源分配任务启发的强化学习基准，可以模拟真实世界顺序决策问题中常遇到的一系列挑战，如不确定性。它可以根据需要进行不同难度的配置，例如变量维度。与其他旨在模拟真实世界困难性的强化学习基准不同的是，我们的基准直接源自一个经过最小化简化和优化的真实工业问题。它足够通用，可以评估适用于我们资源分配框架的任何真实世界问题的强化学习算法。我们提供了标准基线方法的结果。我们的结果及其解释工具超越了通常的训练奖励曲线，可以凸显出众所周知的深度强化学习算法（如 PPO、TRPO 和 DQN）的有趣局限性。

Jul, 2023

机器人控制的 DRL 过程中的部分可观测性

本文研究了 Deep Reinforcement Learning 在机器人控制任务中的应用，特别是在部分可观性条件下，比较了 TD3、SAC 和 PPO 算法的表现，并提出了改进部分可观性下 TD3 和 SAC 算法鲁棒性的多步版本算法。

Sep, 2022

PDDLGym：来自 PDDL 问题的 Gym 环境

PDDLGym 是一个从 PDDL 域和问题中自动构建 OpenAI Gym 环境的框架，它是一个特别适合于关系强化学习和关系序列决策研究的框架，也可用作快速构建众多、多样化基准测试的通用框架。

Feb, 2020