BriefGPT.xyz
大模型
Ask
alpha
关键词
counterfactual policies
搜索结果 - 4
AutoOPE:自动离策择估计器选择
自动数据驱动的离策评估估计器选择方法,基于机器学习模型在合成任务中预测最佳估计器,能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。
PDF
8 days ago
IJCAI
超参数优化在离策略学习中甚至可能是有害的及其应对方法
基于偏置记录数据准确估计反事实政策效果的评估在许多情况下不仅用于评估决策政策的价值,还用于搜索大候选空间中的最佳超参数。本研究探讨了离策略学习中的超参数优化任务,并提出了简单而高效的校正方法来解决相关问题。实证调查证明了我们提出的超参数优化
→
PDF
2 months ago
评估和基准化离策略评估的风险收益权衡
评估线下记录数据所使用的反事实政策的有效性,并通过基于财务投资组合评估的新指标 SharpeRatio@k 来衡量政策组合的风险回报权衡,该指标已被集成到开源软件 SCOPE-RL 中,实证研究对不同评估器和强化学习任务进行了全面的基准测试
→
PDF
7 months ago
具有通用数据生成策略的反事实学习
本文提出了用于处理全支撑和有缺陷支撑的日志策略,并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法,并将其应用于优化在线平台的 coupon targeting policies。
PDF
2 years ago
Prev
Next