Oct, 2022
交互式强化学习场景下的广泛持久建议
Broad-persistent Advice for Interactive Reinforcement Learning Scenarios
Francisco Cruz, Adam Bignold, Hung Son Nguyen, Richard Dazeley, Peter Vamplew
TL;DR本文提出保留和重复使用提供的知识的方法,允许训练者提供与当前状态不止相关的一般建议。实验结果表明,使用宽持久性建议能够大幅提高代理的性能,同时减少训练所需的交互次数。