关键词thompson sampling
搜索结果 - 153
  • 数据采样的记忆序列长度对元强化学习智能体的适应性的影响
    PDF16 days ago
  • 基于近似采样的强化学习更高效的随机探索
    PDF16 days ago
  • 图神经汤普森采样
    PDF19 days ago
  • 一种用于合作资源分配的联合在线不安分强盗框架
    PDF22 days ago
  • ACL通过提前退出进行投机解码以加速 LLM 推断,并采用汤普森抽样控制机制
    PDFa month ago
  • 基于贝叶斯的在线规划
    PDFa month ago
  • 使用 LLMs 进行代码修复的探索 - 利用权衡
    PDFa month ago
  • 两人盲拧游戏中无算法串通的托马斯・桑普林
    PDFa month ago
  • 无限时间段折现决策过程的汤普森抽样
    PDF2 months ago
  • 智能和适应后验采样算法用于二元选择
    PDF2 months ago
  • 合作多智体强化学习中的随机探索
    PDF3 months ago
  • 使用汤普森抽样在线学习决策树
    PDF3 months ago
  • 关于大型语言模型的决策重要性中的不确定性
    PDF3 months ago
  • 共享仿射子空间中的元学习在赌博机中的应用
    PDF3 months ago
  • 无家可归街头外展和采集可食食物的资源受限随机调度算法
    PDF4 months ago
  • 最小化 Thompson 采样后悔率对标准差比率 (TS-RSR):一种可证明高效的批量贝叶斯优化算法
    PDF4 months ago
  • ε- 贪婪汤普森采样用于贝叶斯优化
    PDF4 months ago
  • 影响性强盗:偏好塑造的臂选择
    PDF4 months ago
  • 部分可观察情境下的汤普森抽样
    PDF5 months ago
  • 上下文多臂赌博机的树集成
    PDF5 months ago
Prev