Aug, 2023

RePo: 通过正则化后验可预测性提高强化学习模型的弹性

TL;DR这篇论文提出了一种视觉模型驱动的强化学习方法,它学习到了一个对噪声和干扰具有弹性的潜在表示,通过鼓励表示能够最大程度地预测动态和奖励,并在观察和潜在表示之间限制信息流。此方法对于视觉干扰具有显著的抵抗力,在动态环境中能够有效运行。此外,作者还提出了一种简单的无奖励对齐过程,使得编码器能够在测试时进行快速适应,无需重新学习动态和策略。这项工作是使模型驱动的强化学习在动态多样的领域中成为实用和有用工具的一步,作者在模拟基准测试以及具有噪声电视背景的真实环境中展示了其有效性。