Jun, 2024

DEER: 变延迟强化学习的抗延迟框架

TL;DR提出了一种名为DEER(Delay-resilient Encoder-Enhanced RL)的框架,用于增强可解释性并解决随机延迟问题,通过使用预训练编码器将延迟状态及其不同延迟导致的可变长度的过去动作序列映射到隐藏状态,从而有效地缓解了强化学习中的延迟挑战。在延迟情境下,训练好的编码器可以与标准强化学习算法无缝集成,并通过适应原始算法的输入维度来增强解决延迟问题的能力。通过在Gym和Mujoco环境上进行广泛实验,结果证明DEER在固定和随机延迟设置下优于现有的强化学习算法。