深度强化学习的信息导向探索

Dec, 2018

Information-Directed Exploration for Deep Reinforcement Learning

Nikolay Nikolov, Johannes Kirschner, Felix Berkenkamp, Andreas Krause

TL;DR本文提出了一种基于信息导向采样的探索策略，结合分布式强化学习的方法，应对异方差性观测噪声与参数不确定性的挑战，并在 Atari 游戏中展示出比传统策略显著的改进。

Abstract

Efficient exploration remains a major challenge for reinforcement learning. One reason is that the variability of the returns often depends on the current state and action, and is therefore heteroscedastic. Class

reinforcement learning exploration information-directed sampling deep q-learning atari games

发现论文，激发创造

信息导向抽样和异方差噪声赌场算法

本研究通过引入异方差噪声，重新考虑了随机赌博机问题，并提出了一种基于高斯处理模型的叫做 IDS 的新方法，该方法可以减小后悔和信息误差之间的比率，以优化贝叶斯优化算法。

Jan, 2018

模型基强化学习中的 Stein 信息导向探索

本研究提出了一种基于转移模型的新型探索激励方法 STEERING，并通过内核化 Stein 差异度（KSD）计算与优化未知最优模型之间的积分概率度量（IPM），获得亚线性贝叶斯遗憾，比当前基于信息增益的模型强化学习算法表现更优。

Jan, 2023

渐进最优信息导向采样

介绍了一种基于信息导向采样（IDS）框架的简单高效的针对动作数有限的随机线性赌博机问题的算法，在有限时间内渐近最优，并且几乎是最坏情况下的最优。研究发现 IDS 如何在遗憾和信息之间平衡权衡，并揭示了最近被提出的原始对偶方法和 IDS 算法之间的惊人联系。通过实验表明，IDS 在有限时间内与 UCB 竞争力强，在渐近阶段更优。

Nov, 2020

稀疏线性赌博机的信息引导采样

本文提出了一种基于信息定向抽样 (IDS) 的信息论贝叶斯遗憾界，在计算上能够高效地实现稀疏 IDS，通过数值实验表明相对于几个基线算法，稀疏 IDS 有明显的遗憾减少。

May, 2021

信息引导采样的优化学习

该研究提出了一种新的信息导向采样的方法，它适用于在线优化问题，通过学习部分反馈，决策者需要在探索和利用之间取得平衡。

Mar, 2014

基于信息指导取样的带图反馈随机赌博机算法

本文旨在解决具有图反馈的随机多臂赌博问题，探讨了 Thompson 采样和基于信息学的采样策略等方案，提出了 Bayesian 遗憾的限制，并通过数值实验证明了新的决策策略的有效性。

Nov, 2017

信息导向的强化学习奖励学习

使用基于贝叶斯模型的信息导向方法进行强化学习，通过最大化不同策略间回报差异的信息增益来选择专家反馈以提高政策性能。

Feb, 2021

多智能体强化学习的可证明高效信息导向采样算法

该研究设计和分析了一组基于信息导向采样（IDS）原则的新型多智能体强化学习（MARL）算法，这些算法受到信息论基础概念的启发，在两人零和马尔可夫博弈和多人一般和博弈等 MARL 环境中被证明具有高样本效率。

Apr, 2024

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

线性部分监督的信息引导采样

该论文提出信息导向抽样方法在带线性奖励结构的随机局部监控中实现了自适应的最坏情况遗憾率，并且针对所有有限博弈分类了最小最大遗憾，IDS 在所有情况下都实现了最优率。

Feb, 2020