ICLRFeb, 2023

模型集成是否必要?通过具有 Lipschitz 正则化值函数的单个模型实现基于模型的强化学习

TL;DR本论文通过对 Lipschitz 连续性的解释,提供了两种实用的训练机制,通过计算敌对噪声和规范值网络的谱范数来直接规范价值函数的 Lipschitz 条件。实证结果表明,结合我们的机制,具有单个动态模型的基于模型的 RL 算法优于具有概率动态模型集合的算法。