Apr, 2024

Bellman方程隐式约束下的自适应表示阶数正则化

TL;DR通过引入新的正则化器——基于Bellman方程的自动等级正则化器(BEER),我们可以自适应地调节表示等级,从而提高深度强化学习代理的性能。实验证明,BEER在12项挑战性控制任务中表现出色,并且在Q值近似中也具有显著优势。