DynaMITE-RL：改进时间元强化学习的动态模型

Feb, 2024

DynaMITE-RL：改进时间元强化学习的动态模型

DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning

Anthony Liang, Guy Tennenholtz, Chih-wei Hsu, Yinlam Chow, Erdem Bıyık...

TL;DR介绍了DynaMITE-RL，这是一种元强化学习方法，用于在潜在状态以不同速率演化的环境中进行近似推理。通过对现有元强化学习方法进行三个关键修改：会话中的潜在信息的一致性、会话屏蔽和先验潜在条件，我们展示了这些修改的重要性，从离散的Gridworld环境到连续控制和模拟机器人辅助任务，证明了DynaMITE-RL在样本效率和推理返回方面明显优于现有基线。

Abstract

We introduce dynamite-rl, a meta-reinforcement learning (meta-RL) approach to approximate inference in environments where the latent state