关键词contextual bandit
搜索结果 - 50
  • 关于局部隐私线性情境赌博机的最佳后悔
    PDF3 months ago
  • IBCB:用于行为演化历史的高效反向批次上下文强化学习
    PDF3 months ago
  • 使用上下文强化学习优化华法林剂量:一种离线策略学习和评估方法
    PDF5 months ago
  • 自适应实验中的差分隐私 CATE 估计
    PDF6 months ago
  • 未知上下文分布的上下文强化学习的最优交叉学习
    PDF6 months ago
  • 跟进也很重要:通过后续服务改进上下文强化学习
    PDF9 months ago
  • AdaptEx:一个自助式上下文强化学习平台
    PDFa year ago
  • 具有大行动空间的离策评估的双重稳健估计方法
    PDFa year ago
  • 非稳态环境下具有昂贵特征的在线学习
    PDFa year ago
  • 多智能体情境赌博机制中的 Epoch-Greedy 鲁棒性分析
    PDFa year ago
  • 带匪反馈的最近邻算法
    PDFa year ago
  • 可上下文化的随机臂赌博机
    PDFa year ago
  • 战略性苹果品鉴
    PDFa year ago
  • 使用背包问题的上下文臂局部总成本约束,在公平性中的应用
    PDFa year ago
  • 具有子高斯奖励的上下文强盗问题的 Thompson 抽样遗憾边界
    PDFa year ago
  • ICML拥塞贝叶斯:通过短期重置实现最优路由
    PDFa year ago
  • 使用贝叶斯方法学习马尔可夫决策过程中的 Bandit 结构
    PDF2 years ago
  • 如何与人工智能对话:指令,描述和自主性
    PDF2 years ago
  • ACL基于用户反馈的摘录式问答中的赌博学习模拟
    PDF2 years ago
  • 多臂老虎机实验中的适应性和混淆
    PDF2 years ago
Prev