Oct, 2022

CUP:批评指导的策略复用

TL;DR提出了一种名为 Critic-guided Policy 的算法用于处理深度强化学习中的策略重用问题,通过使用评论家来评估并选择源策略,避免了训练额外的组件,该算法在有效的策略搜索方面表现出良好性能,胜过其它基准算法。