Jun, 2023

双重不均匀环境下的离线评估

TL;DR本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能。