ICLRMay, 2024
核度量学习:用于确定性强化学习策略的样本内离策略评估
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies
Haanvid Lee, Tri Wahyu Guntara, Jongmin Lee, Yung-Kyun Noh, Kee-Eung Kim
TL;DR在连续动作空间中,通过使用优化的核度量,通过样本内学习的离策略评估可以显著提高准确性。