关键词contextual bandit
搜索结果 - 50
  • 平滑在线学习的简易性与统计学习相当
    PDF2 years ago
  • ICML随机赌博机中曝光的公平性
    PDF3 years ago
  • 上下文匹配赌博机环境下的在线决策统计推断
    PDF4 years ago
  • 深度贝叶斯多臂赌博机:在线个性化推荐中的探索
    PDF4 years ago
  • 通过自标准化的重要性权重实现自信的离线评估和选择
    PDF4 years ago
  • MiniVox 中作为全在线学习问题的说话人分离
    PDF4 years ago
  • 广义线性赌臂问题的高效算法:在线随机梯度下降和汤普森抽样
    PDF4 years ago
  • WWW基于资源限制的分层自适应上下文强化学习推荐算法
    PDF4 years ago
  • 绕开怪物:一种更快、更简单的实现环境下上下文二项式算法
    PDF4 years ago
  • 情境随机赌博问题中的模型选择
    PDF4 years ago
  • AAAI基于上下文多臂赌博机的时变用户兴趣个性化推荐
    PDF4 years ago
  • AAAI分层边缘计算中的物联网数据自适应异常检测
    PDF4 years ago
  • $\sqrt {n}$-Regret 算法在带有函数逼近和低 Bellman 等级的马尔可夫决策过程学习中的应用
    PDF5 years ago
  • 平滑上下文强化学习:连接参数化和不可微性遗憾模式
    PDF5 years ago
  • 通过贝叶斯赌博算法在线评估定向广告受众
    PDF5 years ago
  • WWW对话式上下文强化学习算法及其应用
    PDF5 years ago
  • 一种新的非平稳情境赌博算法:高效、最优和免参数
    PDF5 years ago
  • 将行为约束纳入在线 AI 系统
    PDF6 years ago
  • SIGIR非静态环境下学习上下文臂
    PDF6 years ago
  • 连续处理的政策评估与优化
    PDF6 years ago