关键词off-policy evaluation
搜索结果 - 100
  • 正向和反向状态抽象用于策略离线评估
    PDF7 days ago
  • AutoOPE:自动离策择估计器选择
    PDF8 days ago
  • 基于已记录的人类反馈的离线策略评估
    PDF20 days ago
  • 潜在 MDP 中的强化学习是可行的:通过离线策略评估实现在线保证
    PDFa month ago
  • ICLR核度量学习:用于确定性强化学习策略的样本内离策略评估
    PDFa month ago
  • 交叉验证的离策略评估
    PDFa month ago
  • IJCAI超参数优化在离策略学习中甚至可能是有害的及其应对方法
    PDF2 months ago
  • 离线政策评估方法的数据污染攻击
    PDF3 months ago
  • 估计记录策略的双重稳健离线策略评估
    PDF3 months ago
  • 关于未来依赖值函数中未来与历史的诅咒对于离策略评估的影响
    PDF4 months ago
  • 大动作空间的贝叶斯离策评估和学习
    PDF4 months ago
  • 马尔可夫决策过程中的弱分布重叠下的离策略评估
    PDF5 months ago
  • 通过优化概括方法评估推荐策略的离策略算法
    PDF5 months ago
  • AAAI基于近似贝叶斯计算的概率离线策略排序
    PDF7 months ago
  • 在情境强化学习中进行的离线策略评估的边际密度比
    PDF7 months ago
  • 评估和基准化离策略评估的风险收益权衡
    PDF7 months ago
  • SCOPE-RL:一个用于离线强化学习和离线策略评估的 Python 库
    PDF7 months ago
  • 离线策略评估何时有用?—— 基于数据的视角
    PDF7 months ago
  • 基于状态 - 动作相似性的离线策略评估
    PDF8 months ago
  • 半离线策略评估的反事实增强重要性采样
    PDF8 months ago
Prev