Jun, 2020

不变的策略优化: 强化学习中更强的泛化能力

TL;DR本研究针对强化学习中泛化性不足的问题,提出了一种基于不变性原则的学习算法Invariance Policy Optimization (IPO),该算法能够在训练过程中学习到一种不变策略,并能够在线性二次调节器和网格世界问题以及机器人学习开门问题上表现出良好的泛化性能。