BriefGPT.xyz
Ask
alpha
关键词
minimax methods
搜索结果 - 2
极小化离线强化学习的有限样本分析:完备性,快速速率和一阶效率
本文从函数逼近和 $q$ 函数的角度,通过最新的极小极大方法对离线策略评估 (OPE) 在强化学习中进行了理论刻画,并基于此结果分析了 OPE 的收敛速度和新的完备条件,提出了第一种在非表格环境下具有一阶效率的有限样本结果。
PDF
3 years ago
离线评估和策略优化的极小极大值区间
该研究使用价值函数和边际重要性权重研究了最小极小化方法在离线策略评估中的应用,结合两种不同风格的方法,提出了一个特殊类型的双重稳健方法,解决了偏见问题,同时还探索了其在数据覆盖不足的离线策略优化中对探索和开发的影响。
PDF
4 years ago
Prev
Next