模型基强化学习中的 Stein 信息导向探索

Jan, 2023

模型基强化学习中的 Stein 信息导向探索

STEERING: Stein Information Directed Exploration for Model-Based Reinforcement Learning

Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Mengdi Wang, Furong Huang...

TL;DR本研究提出了一种基于转移模型的新型探索激励方法 STEERING，并通过内核化 Stein 差异度（KSD）计算与优化未知最优模型之间的积分概率度量（IPM），获得亚线性贝叶斯遗憾，比当前基于信息增益的模型强化学习算法表现更优。

Abstract

Directed Exploration is a crucial challenge in reinforcement learning (RL), especially when rewards are sparse. information-directed sampling (IDS), which optimizes the information ratio, seeks to do so by augmen

reinforcement learning information-directed sampling exploration incentive transition model kernelized stein discrepancy

发现论文，激发创造

深度强化学习的信息导向探索

本文提出了一种基于信息导向采样的探索策略，结合分布式强化学习的方法，应对异方差性观测噪声与参数不确定性的挑战，并在 Atari 游戏中展示出比传统策略显著的改进。

Dec, 2018

信息引导采样的优化学习

该研究提出了一种新的信息导向采样的方法，它适用于在线优化问题，通过学习部分反馈，决策者需要在探索和利用之间取得平衡。

Mar, 2014

多智能体强化学习的可证明高效信息导向采样算法

该研究设计和分析了一组基于信息导向采样（IDS）原则的新型多智能体强化学习（MARL）算法，这些算法受到信息论基础概念的启发，在两人零和马尔可夫博弈和多人一般和博弈等 MARL 环境中被证明具有高样本效率。

Apr, 2024

稀疏线性赌博机的信息引导采样

本文提出了一种基于信息定向抽样 (IDS) 的信息论贝叶斯遗憾界，在计算上能够高效地实现稀疏 IDS，通过数值实验表明相对于几个基线算法，稀疏 IDS 有明显的遗憾减少。

May, 2021

基于结构信息原则的有效强化学习

该研究提出了一种基于结构信息原则的有效决策框架，通过信息论的视角，利用一种特定的无监督划分方法生成状态和动作的抽象表示，构建高效的转换图和编码树，引入了基于技能的学习机制，从而改善了单一智能体和多智能体强化学习算法的性能。

Apr, 2024

线性部分监督的信息引导采样

该论文提出信息导向抽样方法在带线性奖励结构的随机局部监控中实现了自适应的最坏情况遗憾率，并且针对所有有限博弈分类了最小最大遗憾，IDS 在所有情况下都实现了最优率。

Feb, 2020

信息导向的强化学习奖励学习

使用基于贝叶斯模型的信息导向方法进行强化学习，通过最大化不同策略间回报差异的信息增益来选择专家反馈以提高政策性能。

Feb, 2021

渐进最优信息导向采样

介绍了一种基于信息导向采样（IDS）框架的简单高效的针对动作数有限的随机线性赌博机问题的算法，在有限时间内渐近最优，并且几乎是最坏情况下的最优。研究发现 IDS 如何在遗憾和信息之间平衡权衡，并揭示了最近被提出的原始对偶方法和 IDS 算法之间的惊人联系。通过实验表明，IDS 在有限时间内与 UCB 竞争力强，在渐近阶段更优。

Nov, 2020

乐观信息导向抽样

我们提出了一种新的分析框架，将俄罗斯和范・罗伊（2018 年）的信息导向抽样的贝叶斯理论与 Foster 等人（2021 年）的最坏情况理论基于决策估计系数相结合，通过我们的算法模板 Optimistic Information-Directed Sampling，可以实现与经典贝叶斯 IDS 方法类似的实例相关遗憾保证，但不需要任何贝叶斯假设。我们分析的关键技术创新是引入一种乐观的替代模型来衡量遗憾，并使用它来定义俄罗斯和范・罗伊（2018 年）的信息比率和 Foster 等人（2021 年）的决策估计系数的较少保守版本。

Feb, 2024

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法 (DEIR)，实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023