关键词policy evaluation
搜索结果 - 66
  • 折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析
    PDF20 days ago
  • SaVeR: 基于表格型 MDP 的安全策略评估的最优数据收集策略
    PDFa month ago
  • 结合实验和历史数据进行政策评估
    PDFa month ago
  • ICML动态治疗方案中的强化学习需要全面重新审视
    PDFa month ago
  • OPERA:多个估计器加权汇总的离线自动策略评估
    PDFa month ago
  • 时序差异学习在罕见事件预测中的令人惊讶的效率
    PDFa month ago
  • 健壮马氏决策过程中高效锐利的离策略评估
    PDF3 months ago
  • 关于价值函数的有限表达能力及其与统计 (非) 效率的联系
    PDF4 months ago
  • 连续时间控制中积分增强学习的计算影响
    PDF4 months ago
  • 低秩赌博机的紧致二至无穷奇异子空间恢复
    PDF4 months ago
  • 双重补偿学习在治疗效果估计中的无结构优化性
    PDF4 months ago
  • AAAI从过去到未来:重新思考资格追踪
    PDF6 months ago
  • 关于神经网络在时间差异学习中的性能
    PDF7 months ago
  • 集群网络干扰下的个体化政策评估与学习
    PDF8 months ago
  • 时差学习的有限样本分析
    PDF8 months ago
  • 政策评估中的因果机器学习透明度挑战 —— 提高可用性与责任认定
    PDF8 months ago
  • 在线估计和推断:强化学习中鲁棒政策评估
    PDF9 months ago
  • 多批次强化学习中的样本效率:对维度相关适应性的需求
    PDF9 months ago
  • 抵消干扰稳健推理的凸框架
    PDF9 months ago
  • 关于马尔可夫决策过程的奖励结构
    PDF10 months ago
Prev