Jun, 2024

Q - 函数之差的正交估计

TL;DR离线强化学习是许多具有可用观测数据但由于安全、成本和其他方面的考虑而无法在线部署新策略的设置中的重要问题。本文提出了 R-learner 的动态推广,用于估计和优化 Q 函数之间的差异,方法可以利用黑盒辅助估计器和行为策略来估计更结构化的 Q 函数对比。