ICLRMay, 2024

核度量学习:用于确定性强化学习策略的样本内离策略评估

TL;DR在连续动作空间中,通过使用优化的核度量,通过样本内学习的离策略评估可以显著提高准确性。