Jun, 2023
$K$ 最临近重采样在随机控制中的非策略评估
$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control
Michael Giegrich, Roel Oomen, Christoph Reisinger
TL;DR该论文提出了一种新的 K 最近邻重采样程序,用于在具有连续状态 - 动作空间和系统固有随机性的环境中,通过模拟轨迹来解决反事实估计问题,该算法不需要优化,可以通过基于树的最近邻搜索和并行化实现,特别适用于随机控制环境。