关键词regret bounds
搜索结果 - 229
  • 上下文动态定价与综合估值模型中的极小化最优性
    PDF8 days ago
  • 公平稳定的在线分配的主动学习
    PDF12 days ago
  • 一种基于风险敏感的时序性线性二次调节器的遗憾界限
    PDF24 days ago
  • 具有最优臂兼容条件的套索赌徒
    PDFa month ago
  • 每轮只需 1 个投影的通用在线凸优化
    PDFa month ago
  • ICML平均奖励约束下有效的强化学习探索:通过后验抽样实现接近最优的遗憾
    PDFa month ago
  • 关于时间变化凸函数的二阶梯度下降的稳定性
    PDFa month ago
  • 公平的在线双边交易
    PDFa month ago
  • 多项式逻辑回归赌博机的几乎极小极大后悔
    PDF2 months ago
  • 激励兼容的赌博算法:不再依赖重要性加权
    PDF2 months ago
  • 超过最坏情况的无限多臂武装匪徒的腐烂问题:自适应方法
    PDF2 months ago
  • ICLR线性马尔可夫决策过程的无界遗憾
    PDF4 months ago
  • 睡眠赌徒的近最佳每个动作的遗憾界
    PDF4 months ago
  • 策略分类的学习差距
    PDF4 months ago
  • AAAI带有异步通信和异构用户的联合上下文级联强化学习
    PDF4 months ago
  • 部分可观察情境下的汤普森抽样
    PDF5 months ago
  • 具备调解者反馈的赌博机信息容量遗憾界限
    PDF5 months ago
  • 分散式在线凸优化的近优遗憾
    PDF5 months ago
  • 二阶方法在赌局优化和控制中的应用
    PDF5 months ago
  • 无投影在线凸优化与时变约束
    PDF5 months ago
Prev