Jun, 2024

探索前进:在深度强化学习中利用探索进行泛化

TL;DR提供一种新的方法 Explore-Go,通过增加代理训练的状态数目,从而有效地增加代理的起始状态分布,以提高强化学习中的泛化性能。