ICMLSep, 2021

批量强化学习中三种正则化方法的比较与统一

TL;DR本篇论文研究了在批量强化学习中,如何利用加正则化的方法解决由于样本不足或过于复杂导致的模型准确度不高和性能不佳的问题,并通过实验验证了在相同的加正则化措施下,MDP 结构和数据集中状态 - 动作对的分布如何影响其性能表现。