May, 2020

动态环境下强化学习算法综述

TL;DR本文综述了针对动态环境模型的强化学习方法,目的是在学习过程中最小化奖励损失或找到适当的策略以实现在不断变化的操作条件下智能体的适应,并讨论了这些方法的优缺点以及未来的改进方向。