关键词regret guarantees
搜索结果 - 39
  • 在平均回报 MDPs 中实现可行的最小最优后悔
    PDFa month ago
  • ICML动态环境下的在线线性回归与折扣
    PDFa month ago
  • 一种具有对数复杂度和遗憾保证的在线基于梯度的缓存策略
    PDF2 months ago
  • 线性马尔可夫决策过程中的常数遗憾解决
    PDF3 months ago
  • 随机偏袒监控的随机置信界限
    PDF5 months ago
  • 贝叶斯优化中的随机探索:最优遗憾和计算效率
    PDF8 months ago
  • 无限视角平均报酬强化学习的量子加速
    PDF9 months ago
  • 有限探索的双层离线策略优化
    PDF9 months ago
  • Oracle 群体损失的高效算法
    PDF9 months ago
  • 对抗语境强化学习的核化方法
    PDF9 months ago
  • 脱机强化学习的悲观非线性最小二乘值迭代
    PDF9 months ago
  • 面向未来的原因,立即行动:可证明样本效率的自主 LLM 代理的原则框架
    PDF9 months ago
  • 利用鞍点边界来改进随机线性赌臂算法的新算法
    PDF9 months ago
  • 具有噪声请求估计的无悔缓存
    PDF10 months ago
  • 安全线性赌臂机中的问题几何利用
    PDF10 months ago
  • ICML带对数通信的 Langevin Thompson Sampling:赌博机和强化学习
    PDFa year ago
  • Riemannian 无投影在线学习
    PDFa year ago
  • 带有流行度偏差的排名:自我放大动态下的用户福利
    PDFa year ago
  • 层次划分预测器
    PDFa year ago
  • 利用赌率反馈的表现预测:通过重新参数化进行学习
    PDFa year ago
Prev