ICMLJun, 2023

增强学习中的引导式表示学习

TL;DR本文研究了强化学习中的状态表示问题,发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异,本文提出的新的辅助学习规则在经典环境下具有较好表现。