Feb, 2024

策略学习在缺乏支持下的离散的 RL 中的应用

TL;DR通过解决源模拟和目标环境之间的动力学差异问题,提出一种简单但有效的方法,通过偏向和扩展源支持以减轻支持缺陷,以适应大的动力学差异,从而在目标领域中制定出有效的策略。