关键词policy regret
搜索结果 - 12
  • 从未知奖励的演示中学习安全约束
    PDFa year ago
  • ICML加权记分贝叶斯多臂老虎机算法:通过重复曝光优化解决计算难题
    PDFa year ago
  • ICML拥塞贝叶斯:通过短期重置实现最优路由
    PDFa year ago
  • 在最大化收益的同时减少不平等:改进赌博算法的紧密任何时刻保证
    PDF2 years ago
  • IJCAI具有复合匿名延迟反馈的有界内存对抗性赌博机
    PDF2 years ago
  • 计数型赌博机的完整策略遗憾界
    PDF2 years ago
  • IJCAI通过政策遗憾来解决机器学习决策的长期影响
    PDF3 years ago
  • AAAI在线优化控制及仿射约束
    PDF4 years ago
  • LQR 控制中线性控制器的威力
    PDF4 years ago
  • 重复博弈中的政策后悔
    PDF6 years ago
  • 来自显式偏好的战略分类
    PDF7 years ago
  • ICML面向自适应对手的在线强盗学习:从遗憾到策略遗憾
    PDF12 years ago
Prev
Next