Feb, 2024

辅助奖励生成与过渡距离表示学习

TL;DR通过度量状态之间的转换距离,我们提出了一种新颖的表示学习方法,用于自动生成辅助奖励,以促进增强学习的效率和收敛稳定性。