May, 2019

多样性导向的策略梯度:利用最大平均差异找到一组不同的策略

TL;DR本文使用基于梯度的优化技术,旨在找到不同行为的多样化的性能良好的策略集,在强化学习方法中,鉴别近似最优策略集的重要性被正式化和研究,并在基准测试和医疗保健任务中展示了应用效果。