Feb, 2022

只需要有监督学习:从模仿学习到反转强化学习元学习

TL;DR本文介绍 Upside Down Reinforcement Learning (UDRL) 算法,它使用监督学习实现了强化学习的目标,并可以适用于多种强化学习环境,具有非常广泛的适用性。