AAAIFeb, 2018

快速和安全策略改进的多样化探索

TL;DR本文提出一种新的探索策略 —— 多样性探索(DE),通过学习和部署一组多样性的安全策略来探索环境,从而实现在线强化学习领域中快速并安全地改进策略,通过实证研究表明该方法可以同时实现快速策略改进和安全在线性能。