BriefGPT.xyz
Ask
alpha
关键词
multi-action
搜索结果 - 1
离线多操作策略学习:泛化与优化
本文主要研究基于观测数据的离线多行动策略学习问题,特别地,该策略可能需要遵守预算约束或属于受限策略类,如决策树,提出了一个算法实现,能够达到渐近最小化风险后悔,这是在多行动设置中的首次结果,对于现有的学习算法有大幅度的性能提升。该文提出了两
→
PDF
6 years ago
Prev
Next