Dec, 2022

离线强化学习的置信度条件值函数

TL;DR本文提出了一种新的学习价值函数的方法,即置信度条件价值函数。该方法能够在训练时对不同的保守程度进行学习,并在评估时动态地选择其中一种,以控制置信度水平。该方法可通过将现有算法的 Q 函数置信度化来实现,并能在任何期望的置信度下产生真实值的保守估计。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。