Oct, 2022

代理-控制器表示方法: 基于丰富外部信息的系统离线强化学习

TL;DR本文介绍了一个针对 offline-RL 问题的新的基准测试以及引入 ACRO 方法来解决视觉详细的外在信息的控制问题。研究发现当前的表征学习技术在实际应用中存在复杂和时变过程的噪声时很容易失败。ACRO 理论和实验证明,使用多步骤反向模型可以学习到代理控制器的表示并显著优于基线。