Oct, 2022

发现式策略优化

TL;DR本文通过元学习 Mirror Learning 结构并发现一个闭合形式的强化学习算法 DPO, 通过在 Brax 环境下的实验验证,证明 LPO 和 DPO 算法在性能上处于最先进的位置,并具有在未知环境中的转移能力。