Apr, 2024

离线强化学习的网格映射伪计数约束

TL;DR提出了一种用于连续领域的新型基于计数的方法(Grid-Mapping Pseudo-Count method,GPC),通过伪计数约束状态和行动空间的Q值,以适当地惩罚Q值并降低计算成本,实验结果表明GPC-SAC算法在性能和计算成本方面优于其他算法。