Dec, 2022

通过状态抽象将边缘重要抽样扩展到高维状态空间

TL;DR本研究提出了一种基于状态抽象的离线策略评估方法,采用较低维的状态空间可以降低重要性采样中方差的影响,提高评估准确性和鲁棒性。