关键词regret
搜索结果 - 334
  • 无噪音奖励和无通信的最佳合作多人学习赌博机
    PDF8 months ago
  • 基于学习的线性二次高斯控制附加勘探的遗憾分析
    PDF9 months ago
  • 高维线性多臂赌博机与背包问题
    PDF9 months ago
  • 多智能体合作学习系统的悔恨最小化算法
    PDF9 months ago
  • 多任务在线学习:聆听邻域嗡嗡声
    PDF9 months ago
  • 从 Oja 算法到乘法权重更新方法及应用
    PDF9 months ago
  • 全局预算平衡下的双边贸易中无懊悔学习
    PDF9 months ago
  • 经纪人的在线学习理论
    PDF9 months ago
  • 多用户延迟反馈中的改进 EXP3 及其自适应变体在对抗性赌博中的应用
    PDF9 months ago
  • 社会福利的自适应最大化
    PDF9 months ago
  • 拜占庭弹性的分散式多臂赌博机
    PDF9 months ago
  • 上下文环境中的二价点击计费竞拍在线学习
    PDF10 months ago
  • 跟进也很重要:通过后续服务改进上下文强化学习
    PDF10 months ago
  • 连续的状态 - 动作空间中的近连续时间强化学习
    PDFa year ago
  • 绕过模拟器:近似最优的对抗线性情境赌博机
    PDFa year ago
  • 互动和集中的差分隐私对于赌博机
    PDFa year ago
  • 线性动力学的在线控制:基于数据驱动的方法
    PDFa year ago
  • 重复多单位按竞标付费拍卖中的学习
    PDFa year ago
  • 在线强化学习的样本复杂度界定
    PDFa year ago
  • 基于偏好的主动查询的情境强化学习和模仿学习
    PDFa year ago