关键词regret
搜索结果 - 331
  • 上下文决斗赌徒的良好感知汤普森抽样
    PDF3 months ago
  • 原始 - 对偶优化中的需求平衡用于盲目网络收入管理
    PDF3 months ago
  • 无限时间平均回报马尔可夫决策过程的方差减少政策梯度方法
    PDF3 months ago
  • 网络学习和游戏中 LLM 代理的后悔案例研究
    PDF3 months ago
  • 一种广义 Borda 准则下最优和自适应的非平稳对决多臂老虎机算法
    PDF4 months ago
  • 顺序任务设置中最小化局部遗憾的谬误
    PDF4 months ago
  • 奖励驱动的非平稳随机赌博机的探索
    PDF4 months ago
  • 线性约束在线 LQG 问题的策略优化的遗憾分析
    PDF4 months ago
  • 用对抗专家实现稳健的决策聚合
    PDF4 months ago
  • 单调个体公平性
    PDF4 months ago
  • ICLR一种用于预测任务类别的表示学习游戏
    PDF4 months ago
  • 线性约束在线凸优化的乐观安全性
    PDF4 months ago
  • 有限覆盖混合强化学习的在线算法的自然推广
    PDF4 months ago
  • 最小化 Thompson 采样后悔率对标准差比率 (TS-RSR):一种可证明高效的批量贝叶斯优化算法
    PDF4 months ago
  • 未知约束的在线学习
    PDF4 months ago
  • 奖励驱动的委托代理赌博游戏中的学习
    PDF4 months ago
  • LC-Tsalis-INF: 广义的两全其美线性上下文决策者
    PDF4 months ago
  • 具有一般因果模型和干预的因果强盗
    PDF4 months ago
  • 实例最优在线学习的 SMART 方法
    PDF4 months ago
  • 用户有限注意力的利用:失配、学习和排序
    PDF5 months ago