May, 2024

仅受罚Q学习用于离线强化学习

TL;DR本文提出了一种约束性的离线强化学习方法EPQ,通过有选择地对易产生估计误差的状态施加惩罚,有效降低估计偏差和提升性能。