关键词off-policy evaluation
搜索结果 - 100
  • 基于偏好的非参数离策略深度网络评估的样本复杂性
    PDF9 months ago
  • 人类反馈的非策略评估
    PDF9 months ago
  • 分布偏移感知的离策略区间估计:一种统一的误差量化框架
    PDF9 months ago
  • 基于分布式的离线策略评估:面向推荐系统的多项式建议
    PDF10 months ago
  • 具有大行动空间的离策评估的双重稳健估计方法
    PDFa year ago
  • ICML利用分解的动作空间进行脱机策略评估
    PDFa year ago
  • KDD多样化用户行为下排名策略的离线评估
    PDFa year ago
  • 双重不均匀环境下的离线评估
    PDFa year ago
  • $K$ 最临近重采样在随机控制中的非策略评估
    PDFa year ago
  • ACL自学对话系统中缺陷行为的可扩展和安全修复
    PDFa year ago
  • 非合作博弈中人类决策预测:基于模拟的脱机评估
    PDFa year ago
  • ICML通过联合效应建模进行大动作空间的离线评估
    PDFa year ago
  • 为离线评估学习动作嵌入
    PDFa year ago
  • 马尔可夫决策过程中的一致离线评估
    PDFa year ago
  • AAAI基于样本相关性的 Vanilla 模型基 Offline 强化学习的样本复杂度
    PDFa year ago
  • 保守型脱机策略评估的幻觉对抗控制
    PDFa year ago
  • ICLR用于脱机策略评估的变分潜在分支模型
    PDFa year ago
  • 离线学习的安全评估:我们准备好部署了吗?
    PDF2 years ago
  • AAAI通过状态抽象将边缘重要抽样扩展到高维状态空间
    PDF2 years ago
  • 具有通用数据生成策略的反事实学习
    PDF2 years ago