关键词contextual bandits
搜索结果 - 102
  • BEACON:长期群体推荐和多模态食谱的便利性和营养平衡
    PDF15 days ago
  • 发现最小的强化学习环境
    PDF16 days ago
  • 通过策略差异估计在表格强化学习中减少样本复杂度
    PDF23 days ago
  • 在线平台中自适应学习选择 - 排序
    PDFa month ago
  • 基于分层探索 - 利用权衡的离线 Oracle 高效学习上下文 MDP
    PDFa month ago
  • 线性赌臂机的基于索引最小经验分歧的算法
    PDFa month ago
  • 关于大型语言模型的决策重要性中的不确定性
    PDF3 months ago
  • 低秩赌博机的紧致二至无穷奇异子空间恢复
    PDF4 months ago
  • 乐观信息导向抽样
    PDF4 months ago
  • 部分可观察情境下的汤普森抽样
    PDF5 months ago
  • 扩散模型应用于大动作空间的情境强化学习
    PDF5 months ago
  • 具有图反馈的随机上下文臂机:从独立数到 MAS 数
    PDF5 months ago
  • 具有一般价值函数的上下文多项式罗吉特赌博机
    PDF5 months ago
  • 分布受益的更多好处:强化学习的二阶边界
    PDF5 months ago
  • 上下文强化学习中基于一般协变量转移的分布稳健策略评估
    PDF5 months ago
  • 量子自然策略梯度
    PDF6 months ago
  • 带阶段约束的情境强化学习
    PDF6 months ago
  • 线性上下文强化学习的最佳算法
    PDF6 months ago
  • WWW个性化推荐的神经上下文强化学习
    PDF6 months ago
  • 在线神经回归的上下文强化学习
    PDF7 months ago
Prev