Oct, 2024
抽象奖励过程:利用状态抽象进行一致的离政策评估
Abstract Reward Processes: Leveraging State Abstraction for Consistent
Off-Policy Evaluation
TL;DR本研究解决了使用离政策数据进行策略评估中的高方差和不可减少偏差问题,导致预测误差过高。提出的STAR框架通过利用状态抽象将复杂问题转化为紧凑的离散模型,从而在多个情况下显著降低均方预测误差,是一种新的离政策评估方法。实证结果显示,STAR的估计量在所有研究的案例中均优于现有方法。