Jun, 2023

具有实时预算约束的安全离线强化学习

TL;DR本文从轨迹分布角度提出了基于Trajectory-based REal-time Budget Inference(TREBI)的解决方案,以解决离线情况下真实时间预算约束问题,理论上证明了收益和成本估计的误差界限,为TREBI提供性能保证。实验结果在广告应用中证明了TREBI在解决离线环境下的实时预算约束问题的能力。