ICMLMay, 2024

捕获表征不匹配的方式进行跨领域策略自适应

TL;DR本研究主要关注在强化学习中存在动力学不匹配的问题,提出了一种基于解耦表示学习的方法,通过在目标领域中进行表示学习并测量与源领域的过渡的表示差异,将表示差异作为奖励惩罚项,该方法在具有运动学和形态学不匹配的环境中表现出良好的性能。