ICLRMar, 2021

最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题

TL;DR该论文证明了最大熵(MaxEnt)强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略,是一种简单并具有吸引力形式保证的鲁棒强化学习方法。