Sep, 2023

序贯行为引发的不变表示在强化学习中的应用

TL;DR通过序列动作导致不变表示法(SAR)方法,针对具有视觉干扰的高维观测中准确学习与任务相关的状态表示的问题,本文提出了一种能抵抗干扰的表示学习方法,通过编码器优化学习从而仅保留顺序动作控制信号后的组件,使得智能体能够学习到鲁棒的表示形式,并在实验中展示了该方法在对抗干扰任务和真实世界自动驾驶场景中的有效性。