Feb, 2020

基于群体的强化学习中有效的多样性

TL;DR本文介绍了一种基于行为多样性的优化方法,该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积,并通过在线学习技术适应多样性程度,从而提高探索能力,而不会降低性能。