Mar, 2024

通过密度估计进行多策略评估

TL;DR我们提出了一种名为CAESAR的算法,用于解决多策略评估问题,该问题目标是对K个目标策略的性能(期望总奖励)进行准确度为epsilon且至少有1-delta的概率评估。CAESAR算法通过计算近似的离线采样分布,并使用从中抽样的数据来同时估计策略值,通过生成粗略估计的目标策略的访问分布和优化离线采样分布来计算重要性加权比率,以实现较低的样本复杂度。