Oct, 2022

交互式强化学习场景下的广泛持久建议

TL;DR本文提出保留和重复使用提供的知识的方法,允许训练者提供与当前状态不止相关的一般建议。实验结果表明,使用宽持久性建议能够大幅提高代理的性能,同时减少训练所需的交互次数。