Mar, 2023

Quality-Diversity 与深度强化学习之间的协同作用理解

TL;DR研究提出了一个统一的模块化框架,名为通用 Actor-Critic Quality-Diversity Deep Reinforcement Learning,以探究深度强化学习中的洞察,并将其应用于 Quality-Diversity 算法,进而提出 PGA-ME (SAC) 和 PGA-ME(DroQ)算法以解决人性化难题,同时演示了境外评估对演员批评模型的必要性。