Oct, 2023

迭代学习具有状态距离信息的多样化策略

TL;DR基于多样性的强化学习在问题优化与策略发现方面面临基本挑战。该研究通过引入状态空间距离信息和优化计算框架,开发了一种新的多样性驱动的强化学习算法 SIPO,实现了对多个领域的多样性和人类可解释的策略的持续发现。