关键词exploration and exploitation
搜索结果 - 21
  • 基于混沌的深度增强学习与 TD3 算法
    PDF2 months ago
  • WESE: LLM 代理的弱探索强开发
    PDF3 months ago
  • 基于阈值驱动的混合采集策略贝叶斯优化加速材料发现
    PDF8 months ago
  • 高效广义低秩张量内容自助机
    PDF8 months ago
  • 强化学习的对比初始状态缓冲器
    PDF10 months ago
  • 通过未见过的状态增强在离线强化学习中利用泛化能力
    PDFa year ago
  • 早迟疑者输:基于 Hamilton 动力学的深度神经网络目标导向训练
    PDFa year ago
  • 受限 MDP 的安全后验采样与约束违规的界限控制
    PDFa year ago
  • 分层强化学习:面对不确定性的悲观和恒定遗憾
    PDF2 years ago
  • KDD基于赌博机的马尔可夫决策过程在线性流中的序列决策建模
    PDF3 years ago
  • 蒙特卡洛树搜索:近期修改和应用综述
    PDF3 years ago
  • KDD使用主观逻辑估算多臂赌博机问题中的不确定性
    PDF4 years ago
  • 广义线性赌臂问题的高效算法:在线随机梯度下降和汤普森抽样
    PDF4 years ago
  • ICML学习内在奖励能够捕捉什么?
    PDF5 years ago
  • 具有遗憾界限的变分贝叶斯强化学习
    PDF6 years ago
  • ICLR深度贝叶斯赌博机对决:贝叶斯深度网络在汤普森抽样中的实证比较
    PDF6 years ago
  • WWW上下文推荐的政策梯度
    PDF6 years ago
  • 基于图的主动学习:对期望误差最小化的新思考
    PDF8 years ago
  • 使用近似动态规划的序贯贝叶斯最优实验设计
    PDF8 years ago
  • 使用高斯过程在 Bandit 环境下进行最优化估计
    PDF9 years ago
Prev