ICMLJul, 2023

强化学习中一步正则化与评论员正则化之间的联系

TL;DR该研究论文介绍了离线强化学习中的正则化方法,探讨了一步方法和评论家正则化方法之间的联系,并表明在需要强正则化的强化学习问题上,一步方法可能与评论家正则化方法具有竞争力。