基于信息价值的强化学习中的探索率调整

Dec, 2022

基于信息价值的强化学习中的探索率调整

Adapting the Exploration Rate for Value-of-Information-Based Reinforcement Learning

Isaac J. Sledge, Jose C. Principe

TL;DR通过将基于信息价值的探索优化转化为寻找不断变化的探索率下的流的平衡问题，本文提出了一种高效的路径跟踪方案，以收敛到这些平衡，从而发现最佳的动作选择策略，并在一些 Nintendo GameBoy 游戏上进行了实验来证明这种方法的优越性。

Abstract

In this paper, we consider the problem of adjusting the exploration rate when using value-of-information-based exploration. We do this by converting the value-of-information optimization into a problem of finding equili

value-of-information-based exploration equilibria path-following scheme adaptation nintendo gameboy games

发现论文，激发创造

基于模型的贝叶斯探索

本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值，并选择能够平衡探索与利用的最佳行动。

Jan, 2013

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

VIME：变分信息最大化探索

本篇论文提出了一种基于变分信息最大化探索的方法 VIME，使用贝叶斯神经网络中的变分推断实现，能有效处理连续状态和动作空间，在多种连续控制任务和算法中表现显著优于启发式探索方法。

May, 2016

应对挑战环境中机器人探索的在线自适应无导数评估

该论文介绍了一种基于状态价值函数、离线蒙特卡罗训练和基于传感器信息的内在奖励函数的机器人探索方法，该方法能够更好地预测未来状态的价值以更好地指导机器人探索，在挑战性的地下和城市环境中首次应用于真实世界数据集中。

Apr, 2022

通过模仿学习信息聚集

本篇论文研究的是一个应用于移动机器人自主探索和检查的问题，即在燃料预算有限的情况下最大化从世界中获取的信息量的问题。作者提出了一种新颖的数据驱动的模仿学习框架，并通过 EXPLORE 算法来训练一个策略以模仿一个有完整信息并计算非简约解来最大化获取信息的先知，验证了这一方法在不同对象分布上的适应能力。

Nov, 2016

并发强化学习中的可扩展协调探索

在一个公共环境下，考虑一组同时运行的强化学习智能体，我们提出了一种适用于实际规模问题的高效协同探索方法，该方法建立在种子抽样和随机值函数学习的基础上，并证明该方法在简单表格式上与先前提出的表格式学习方法相当竞争力，在高维度问题和神经网络值函数表示的情况下，该方法可以通过使用更少的代理学习更快地进行探索比替代方法。

May, 2018

正确地进行玻尔兹曼探索

本文讨论 Boltzmann 探索策略在不同情况下的效果，提出了一种新的方法，可以在不知道时间范围和次优解差距的情况下，保证了概率分布相关和独立的后悔界限。

May, 2017

多智能体竞赛中的探索 - 利用：有界理性下的收敛

通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型 Q-learning，我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中，Q-learning 总是收敛于唯一的量刑 - 反应均衡（QRE），这是有界理性下游戏的标准解决方案概念，并展示了 Q-learning 在竞争环境中的快速收敛性，而无需任何参数微调，在竞争多代理环境中的均衡选择问题提供了算法所需的保证。

Jun, 2021

通过认识价值估计的探索

本文提出了一种称为 epistemic value estimation (EVE) 的方法，用于有效探索在强化学习中的问题，EVE 方法适用于序列决策以及神经网络函数逼近器，利用其可计算的参数的后验概率，能够有效地计算出 epistemic value uncertainty 这一不确定性，经实验验证 EVE 方法有助于在困难的探索任务中实现有效的探索。

Mar, 2023

深度强化学习的信息导向探索

本文提出了一种基于信息导向采样的探索策略，结合分布式强化学习的方法，应对异方差性观测噪声与参数不确定性的挑战，并在 Atari 游戏中展示出比传统策略显著的改进。

Dec, 2018