May, 2020

通过知情策略正则化在动态环境下学习自适应探索策略

TL;DR本文研究了学习探索-利用策略来适应动态环境的问题,并提出了一种使用信息策略对RNN-based策略进行训练的新算法来规范化训练,从而显著减少了训练样本的复杂性。这种方法学习了一些探索策略,使其可以高效地平衡对于未知和变化的任务中获取信息以及随时间最大化回报的问题,并在多种环境中进行了测试。