Jun, 2023

$K$ 最临近重采样在随机控制中的非策略评估

TL;DR该论文提出了一种新的 K 最近邻重采样程序,用于在具有连续状态 - 动作空间和系统固有随机性的环境中,通过模拟轨迹来解决反事实估计问题,该算法不需要优化,可以通过基于树的最近邻搜索和并行化实现,特别适用于随机控制环境。