Nov, 2020

利用分布比率估算器来优化具有质量和多样性的学习智能体

TL;DR本文介绍了一种基于 Kernals 和 $f$-divergence 的 Quality-Diversity 方法,可以用于神经进化和强化学习等领域,在同时获得高任务回报和行为多样性的优化代理的过程中有效地估计各个策略之间的状态分布系数并求解梯度。