变分延迟策略优化

May, 2024

Variational Delayed Policy Optimization

Qingyuan Wu, Simon Sinong Zhan, Yixuan Wang, Yuhui Wang, Chung-Wei Lin...

TL;DR在延迟观测环境中，通过包含延迟窗口内的动作来增加状态，以恢复马尔科夫特性，从而实现强化学习，但是最先进的时序差分学习框架通常由于延迟导致学习效率低下。为了提高学习效率而不损失性能，本工作引入了一种称为变分延迟策略优化（VDPO）的新框架，将延迟强化学习重新构建为一个变分推断问题。该问题进一步被建模为一个两步迭代优化问题，其中第一步是在无延迟环境中进行时序差分学习，而第二步是行为克隆，其效率比时序差分学习要高得多。我们不仅从样本复杂度和性能方面进行了理论分析，而且还通过在 MuJoCo 基准测试中的实验证明，VDPO 可以与最先进的方法达到一致的性能，并且样本效率显著提高（样本量减少了约 50%）。

Abstract

In environments with delayed observation, state augmentation by including actions within the delay window is adopted to retrieve Markovian property to enable →

delayed observation state augmentation reinforcement learning temporal-difference learning frameworks variational delayed policy optimization

发现论文，激发创造

延迟自适应策略优化及基于滞后赌博反馈的对抗 MDP 改进的遗憾

研究 PO 在带有滞后奖励的对抗 MDPs 中的应用，提出 Delay-Adapted PO 算法并得到全新的表格 MDPs 回归界限，在基于线性 Q 函数的无限状态空间和深度 RL 应用中都取得了显著的成果。

May, 2023

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

DPO: 差分强化学习及其在最优配置搜索中的应用

提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架，命名为差分策略优化（DPO）。DPO 是一种点对点和阶段对阶段迭代方法，通过本地运动算子编码的策略进行优化，具有可扩展性，且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。

Apr, 2024

具有非稳态马尔可夫策略的延迟环境下的决策行为

该研究提出了一种针对 MDP 的决策学习与规划框架，其中决策制定者执行的动作有 $m$ 步的延迟，研究表明使用非恒定的马尔科夫策略，可以在非常大的延迟下实现最大化奖励，并介绍了一种无需状态增强即可解决延迟执行任务的 Q-learning 风格模型。

Jan, 2021

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021

提升长延迟强化学习与辅助短延迟任务

在延迟场景中，强化学习面临挑战，本研究提出了一种新颖的辅助延迟强化学习方法（AD-RL），通过在短延迟任务中学习价值函数，并应用于长延迟任务中，以显著减少样本复杂性和提高策略性能。

Feb, 2024

可变循环模型求解部分可观测控制任务

本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法，该算法包含了两个部分，即可变循环模型和强化学习控制器；实验证明，该算法比其他方法在数据效率和策略学习上表现更好。

Dec, 2019

通过世界模型进行延迟观察的强化学习

在标准强化学习设置中，通过立即获得行为后效果的反馈是常见的假设；然而，由于物理限制，在实践中这种假设可能并不成立，可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟。通过将延迟型 POMDP 降低为具有世界模型的延迟型 MDP，我们的方法可以有效处理部分可观察性，在现有方法在可观察性降低时实现次优性能甚至迅速降级的情况下表现出更好的性能。实验证明，我们的方法之一可以比天真的基于模型的方法的表现高出 30%。此外，我们首次在基于视觉输入的延迟环境上评估了我们的方法，展示了延迟感知的视觉观察强化学习。

Mar, 2024

基于模型的延迟感知连续控制强化学习

该研究提出了延迟感知的马尔可夫决策过程的正式定义，并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准 MDP。我们开发了一个延迟感知的模型驱动强化学习框架，可以将多步延迟纳入学习到的系统模型中，而无需进行学习。与 Gym 和 MuJoCo 平台进行的实验表明，与非策略模型无关的强化学习方法相比，所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。

May, 2020