信息引导采样的优化学习
介绍了一种基于信息导向采样(IDS)框架的简单高效的针对动作数有限的随机线性赌博机问题的算法,在有限时间内渐近最优,并且几乎是最坏情况下的最优。研究发现 IDS 如何在遗憾和信息之间平衡权衡,并揭示了最近被提出的原始对偶方法和 IDS 算法之间的惊人联系。通过实验表明,IDS 在有限时间内与 UCB 竞争力强,在渐近阶段更优。
Nov, 2020
我们提出了一种新的分析框架,将俄罗斯和范・罗伊(2018 年)的信息导向抽样的贝叶斯理论与 Foster 等人(2021 年)的最坏情况理论基于决策估计系数相结合,通过我们的算法模板 Optimistic Information-Directed Sampling,可以实现与经典贝叶斯 IDS 方法类似的实例相关遗憾保证,但不需要任何贝叶斯假设。我们分析的关键技术创新是引入一种乐观的替代模型来衡量遗憾,并使用它来定义俄罗斯和范・罗伊(2018 年)的信息比率和 Foster 等人(2021 年)的决策估计系数的较少保守版本。
Feb, 2024
本文提出了一种基于信息定向抽样 (IDS) 的信息论贝叶斯遗憾界,在计算上能够高效地实现稀疏 IDS,通过数值实验表明相对于几个基线算法,稀疏 IDS 有明显的遗憾减少。
May, 2021
本文提供一种信息论分析 Thompson 采样的方式,适用于许多在线优化问题,其中决策者必须从部分反馈中学习,分析继承信息论的简单性和优雅性,并导致与最优行动分布熵成比例的后悔界限,这加强了现有的成果并揭示了信息如何提高性能。
Mar, 2014
本文旨在解决具有图反馈的随机多臂赌博问题,探讨了 Thompson 采样和基于信息学的采样策略等方案,提出了 Bayesian 遗憾的限制,并通过数值实验证明了新的决策策略的有效性。
Nov, 2017
本研究通过引入异方差噪声,重新考虑了随机赌博机问题,并提出了一种基于高斯处理模型的叫做 IDS 的新方法,该方法可以减小后悔和信息误差之间的比率,以优化贝叶斯优化算法。
Jan, 2018
该论文提出信息导向抽样方法在带线性奖励结构的随机局部监控中实现了自适应的最坏情况遗憾率,并且针对所有有限博弈分类了最小最大遗憾,IDS 在所有情况下都实现了最优率。
Feb, 2020
本文提出了一种基于信息导向采样的探索策略,结合分布式强化学习的方法,应对异方差性观测噪声与参数不确定性的挑战,并在 Atari 游戏中展示出比传统策略显著的改进。
Dec, 2018
该研究设计和分析了一组基于信息导向采样(IDS)原则的新型多智能体强化学习(MARL)算法,这些算法受到信息论基础概念的启发,在两人零和马尔可夫博弈和多人一般和博弈等 MARL 环境中被证明具有高样本效率。
Apr, 2024