Oct, 2022

强化学习中考虑可达性的拉普拉斯表示

TL;DR该研究论文介绍了一种基于 Laplacian Representation 并能够有效解决 inter-state reachability 问题的任务无关状态表示方法 RA-LapRep, 该方法能够显著提高 reward shaping 的性能以及帮助发现 bottleneck 状态。