关键词exploration-exploitation dilemma
搜索结果 - 14
  • 上下文组合式波段臂策略在协商中的应用
    PDF6 days ago
  • 基于延迟反馈的预算推荐
    PDF2 months ago
  • 强化学习和交互决策的基础
    PDF6 months ago
  • 强化学习通用函数逼近的近乎最优低切换算法
    PDF7 months ago
  • 通过潜在地标图在分层强化学习中平衡探索与利用
    PDFa year ago
  • 高效勘探 - 开发策略的近似信息
    PDFa year ago
  • 多智能体 Q 学习动态的渐近收敛与性能
    PDFa year ago
  • 带虚拟协助代理的汤普森抽样
    PDF2 years ago
  • 线性奖励塑造的乐观好奇探索和保守利用
    PDF2 years ago
  • ICMLMeta-SAC: 通过 Metagradient 自动调整软演员批评家的熵温度
    PDF4 years ago
  • ICML基于核的强化学习:有限时间分析
    PDF4 years ago
  • 有限马尔可夫决策问题中的勘探 - 利用
    PDF4 years ago
  • 目标导向的强化学习中的无悔探索
    PDF5 years ago
  • 随机最小二乘值迭代的频率后悔界
    PDF5 years ago
Prev
Next