BriefGPT.xyz
Ask
alpha
关键词
fitted q-evaluation
搜索结果 - 3
基于状态 - 动作相似性的离线策略评估
该研究通过引入一个 OPE-tailored 的状态 - 动作行为相似性度量并使用固定数据集来学习该度量以增加数据效率,证明了这种度量可以限制导致的 OPE 估计误差,并通过实证研究证明这种学习表示方法相对于其他 OPE-based 表示学
→
PDF
8 months ago
AAAI
拟合 Q 评估的超参数选择方法及误差保证
该研究针对 FQE 算法的超参数调优问题,提出了一种基于近似超参数选择框架的优化方法,该方法不需要超参数就可以定义一种量化且可解释的最优化标准,并验证理论误差界与实际观察的匹配。
PDF
3 years ago
ICML
基于启发式策略评估的自举式 Q 评估优化
本文探讨了自举法在强化学习中的应用和如何提高自举法的计算效率,使用 FQE 方法进行策略评估,并用数值实验评估自举法在强化学习中的潜力。
PDF
3 years ago
Prev
Next