关键词multi-armed bandit problem
搜索结果 - 61
  • 线性赌臂机的基于索引最小经验分歧的算法
    PDFa month ago
  • CVPR连续学习中的自适应记忆回放
    PDF3 months ago
  • 使用 zk-SNARKs 进行隐私保护的 UCB 决策过程验证
    PDF3 months ago
  • 奖励驱动的非平稳随机赌博机的探索
    PDF4 months ago
  • 具有弃权的多臂赌博机
    PDF4 months ago
  • 批处理多臂赌博机问题中的最佳臂识别
    PDF7 months ago
  • 在线推荐中结合机制设计与强盗算法抗击标题党
    PDF7 months ago
  • 少探索即可
    PDF8 months ago
  • 基于模块的自适应蒸馏用于多模态基础模型
    PDF9 months ago
  • 估计和激励带有隐藏回报的不完美知识代理
    PDFa year ago
  • KDD不耐烦赌徒:无需延迟的长期优化
    PDFa year ago
  • 在在线分配中平衡价格与数据质量以实现公平
    PDFa year ago
  • 具有异构奖励的分散随机分布的多智能体多臂赌博机
    PDFa year ago
  • 有限精度采样赌博机中的最佳臂识别
    PDFa year ago
  • 带虚拟协助代理的汤普森抽样
    PDF2 years ago
  • ICLR在线低秩矩阵补全
    PDF2 years ago
  • 在最大化收益的同时减少不平等:改进赌博算法的紧密任何时刻保证
    PDF2 years ago
  • 通过观察和学习世界的运作,发现利用 ' 赌博式 ' 选择进行规划的生活技能
    PDF2 years ago
  • AAAI最大 - 最小分组赌博机
    PDF3 years ago
  • 在线决策问题中关于对抗性破坏的最佳鲁棒性
    PDF3 years ago
Prev