关键词offline policy evaluation
搜索结果 - 9
- OPERA:多个估计器加权汇总的离线自动策略评估PDFa month ago
- 离线强化学习:状态聚合和轨迹数据的作用PDF3 months ago
- 上下文强化学习中基于一般协变量转移的分布稳健策略评估PDF6 months ago
- ICML学习 Bellman 完整表示以进行离线策略评估PDF2 years ago
- 离线随机最短路径:学习、评估与优化PDF2 years ago
- AAAI拟合 Q 评估的超参数选择方法及误差保证PDF2 years ago
- 深度离线策略评估的仪器变量回归PDF3 years ago
- 在时间均匀、无奖励、任务不可知的情况下进行最优均匀 OPE 和基于模型的离线强化学习PDF3 years ago
- 强化学习离线策略评估中的近最优可证明一致收敛PDF4 years ago
Prev
Next