本研究通过引入异方差噪声,重新考虑了随机赌博机问题,并提出了一种基于高斯处理模型的叫做 IDS 的新方法,该方法可以减小后悔和信息误差之间的比率,以优化贝叶斯优化算法。
Jan, 2018
本研究提出了一种基于转移模型的新型探索激励方法 STEERING,并通过内核化 Stein 差异度(KSD)计算与优化未知最优模型之间的积分概率度量(IPM),获得亚线性贝叶斯遗憾,比当前基于信息增益的模型强化学习算法表现更优。
Jan, 2023
介绍了一种基于信息导向采样(IDS)框架的简单高效的针对动作数有限的随机线性赌博机问题的算法,在有限时间内渐近最优,并且几乎是最坏情况下的最优。研究发现 IDS 如何在遗憾和信息之间平衡权衡,并揭示了最近被提出的原始对偶方法和 IDS 算法之间的惊人联系。通过实验表明,IDS 在有限时间内与 UCB 竞争力强,在渐近阶段更优。
Nov, 2020
本文提出了一种基于信息定向抽样 (IDS) 的信息论贝叶斯遗憾界,在计算上能够高效地实现稀疏 IDS,通过数值实验表明相对于几个基线算法,稀疏 IDS 有明显的遗憾减少。
May, 2021
该研究提出了一种新的信息导向采样的方法,它适用于在线优化问题,通过学习部分反馈,决策者需要在探索和利用之间取得平衡。
Mar, 2014
本文旨在解决具有图反馈的随机多臂赌博问题,探讨了 Thompson 采样和基于信息学的采样策略等方案,提出了 Bayesian 遗憾的限制,并通过数值实验证明了新的决策策略的有效性。
Nov, 2017
使用基于贝叶斯模型的信息导向方法进行强化学习,通过最大化不同策略间回报差异的信息增益来选择专家反馈以提高政策性能。
Feb, 2021
该研究设计和分析了一组基于信息导向采样(IDS)原则的新型多智能体强化学习(MARL)算法,这些算法受到信息论基础概念的启发,在两人零和马尔可夫博弈和多人一般和博弈等 MARL 环境中被证明具有高样本效率。
Apr, 2024
基于探索的深度强化学习方法对新环境具有良好的泛化能力,通过使用一种基于 Q 值分布集合的探索方法,该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。
Jun, 2023
该论文提出信息导向抽样方法在带线性奖励结构的随机局部监控中实现了自适应的最坏情况遗憾率,并且针对所有有限博弈分类了最小最大遗憾,IDS 在所有情况下都实现了最优率。
Feb, 2020