May, 2019

将参数化和非参数化模型相结合的离线策略估计

TL;DR通过结合参数化模型和非参数化模型的混合专家方法来评估强化学习中的批次离线策略,通过选择每个时间步中的模型来最小化回报误差估计,我们的方法在多个领域中优于单个模型和基于重要性采样的状态艺术评估。