Feb, 2024

DynaMITE-RL:改进时间元强化学习的动态模型

TL;DR介绍了DynaMITE-RL,这是一种元强化学习方法,用于在潜在状态以不同速率演化的环境中进行近似推理。通过对现有元强化学习方法进行三个关键修改:会话中的潜在信息的一致性、会话屏蔽和先验潜在条件,我们展示了这些修改的重要性,从离散的Gridworld环境到连续控制和模拟机器人辅助任务,证明了DynaMITE-RL在样本效率和推理返回方面明显优于现有基线。