DEER: 变延迟强化学习的抗延迟框架

Jun, 2024

DEER: 变延迟强化学习的抗延迟框架

DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays

Bo Xia, Yilun Kong, Yongzhe Chang, Bo Yuan, Zhiheng Li...

TL;DR提出了一种名为DEER（Delay-resilient Encoder-Enhanced RL）的框架，用于增强可解释性并解决随机延迟问题，通过使用预训练编码器将延迟状态及其不同延迟导致的可变长度的过去动作序列映射到隐藏状态，从而有效地缓解了强化学习中的延迟挑战。在延迟情境下，训练好的编码器可以与标准强化学习算法无缝集成，并通过适应原始算法的输入维度来增强解决延迟问题的能力。通过在Gym和Mujoco环境上进行广泛实验，结果证明DEER在固定和随机延迟设置下优于现有的强化学习算法。

Abstract

Classic reinforcement learning (RL) frequently confronts challenges in tasks involving delays, which cause a mismatch between received observations and subsequent actions, thereby deviating from the Markov assumption. Existing methods usually tackle this issue with end-to-end solutions

发现论文，激发创造

RL$^2$: 快速增强学习通过慢增强学习

通过将强化学习算法RL^2表示为递归神经网络并从数据中学习，我们提出了一种方法来尝试理解替代动物的快速学习过程。我们在具有优化性能保证的情况下评估了RL^2的性能，并证明它适用于高维问题。

Nov, 2016

鲁棒可预测控制

这篇研究论文提出了一种基于信息压缩的强化学习算法，通过最小化信息、建立自洽的潜在空间模型和策略来提高压缩性能，并在性能、鲁棒性和泛化性方面都有显著提升。

Sep, 2021

为数据高效强化学习学习具有时间一致性的表示

本研究提出了一种名为KSL的新的表示学习方法，通过自我监督辅助任务，强制执行表示的时间一致性，其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL学习到的状态编码器生成低维表示，可以使RL任务的优化更具样本效率，并在PlaNet基准测试套件中产生最先进的数据效率和渐近性能结果。

Oct, 2021

RePo: 通过正则化后验可预测性提高强化学习模型的弹性

这篇论文提出了一种视觉模型驱动的强化学习方法，它学习到了一个对噪声和干扰具有弹性的潜在表示，通过鼓励表示能够最大程度地预测动态和奖励，并在观察和潜在表示之间限制信息流。此方法对于视觉干扰具有显著的抵抗力，在动态环境中能够有效运行。此外，作者还提出了一种简单的无奖励对齐过程，使得编码器能够在测试时进行快速适应，无需重新学习动态和策略。这项工作是使模型驱动的强化学习在动态多样的领域中成为实用和有用工具的一步，作者在模拟基准测试以及具有噪声电视背景的真实环境中展示了其有效性。

Aug, 2023

强化学习中的延迟

研究关于延迟对动态系统、马尔可夫决策过程、强化学习和实证结果的影响。

Sep, 2023

提升长延迟强化学习与辅助短延迟任务

在延迟场景中，强化学习面临挑战，本研究提出了一种新颖的辅助延迟强化学习方法（AD-RL），通过在短延迟任务中学习价值函数，并应用于长延迟任务中，以显著减少样本复杂性和提高策略性能。

Feb, 2024

逐渐演变环境中的行为强化学习

当强化学习代理在实践中部署时，它们可能会对环境产生影响并改变其动态。本研究提出了一个框架，该框架中当前环境的演变依赖于部署策略及其先前的动力学，用以分析学习算法在这些模型中的性能。通过在我们的设置中结合两个 performative prediction 文献中的算法并提出一种名为 MDRR 的新算法，我们提供了这些算法收敛的条件，并使用三个度量指标比较它们。与以往方法不同，MDRR 在训练中结合了多次部署的样本，使其特别适用于环境的响应强烈依赖于其先前的动力学的场景。在基于仿真的测试平台上实验比较这些算法时，结果显示 MDRR 收敛速度显著快于以往方法。

Feb, 2024

通过世界模型进行延迟观察的强化学习

在标准强化学习设置中，通过立即获得行为后效果的反馈是常见的假设；然而，由于物理限制，在实践中这种假设可能并不成立，可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟。通过将延迟型POMDP降低为具有世界模型的延迟型MDP，我们的方法可以有效处理部分可观察性，在现有方法在可观察性降低时实现次优性能甚至迅速降级的情况下表现出更好的性能。实验证明，我们的方法之一可以比天真的基于模型的方法的表现高出30%。此外，我们首次在基于视觉输入的延迟环境上评估了我们的方法，展示了延迟感知的视觉观察强化学习。

Mar, 2024

变分延迟策略优化

在延迟观测环境中，通过包含延迟窗口内的动作来增加状态，以恢复马尔科夫特性，从而实现强化学习，但是最先进的时序差分学习框架通常由于延迟导致学习效率低下。为了提高学习效率而不损失性能，本工作引入了一种称为变分延迟策略优化（VDPO）的新框架，将延迟强化学习重新构建为一个变分推断问题。该问题进一步被建模为一个两步迭代优化问题，其中第一步是在无延迟环境中进行时序差分学习，而第二步是行为克隆，其效率比时序差分学习要高得多。我们不仅从样本复杂度和性能方面进行了理论分析，而且还通过在MuJoCo基准测试中的实验证明，VDPO可以与最先进的方法达到一致的性能，并且样本效率显著提高（样本量减少了约50%）。

May, 2024

高效的递归离策略强化学习需要一个上下文编码器特定的学习率

使用一种称为RESeL的方法改善了循环强化学习（RL）中的训练稳定性问题，并在部分可观察的决策任务中获得了显著的性能改进。

May, 2024