MADE: 探索性能通过最大化未探索区域的差异

Jun, 2021

MADE: 探索性能通过最大化未探索区域的差异

MADE: Exploration via Maximizing Deviation from Explored Regions

Tianjun Zhang, Paria Rashidinejad, Jiantao Jiao, Yuandong Tian, Joseph Gonzalez...

TL;DR针对在线强化学习中高维稀疏奖励问题，提出一种新的探索方法，通过最大化下一个策略区域探测点的占用偏差，引入自适应正则化项平衡探索和开发，得出一种内在回报函数，可以轻松地与其他现有强化学习算法结合实现探索，实验结果表明，在 MiniGrid 和 DeepMind Control Suite 基准任务中具有明显的样本效率提高，并且优于基于计数的探索策略。

Abstract

In online reinforcement learning (RL), efficient exploration remains particularly challenging in high-dimensional environments with sparse rewards. In low-dimensional environments, where tabular parameterization

online reinforcement learning exploration non-linear function approximation intrinsic reward sample efficiency

发现论文，激发创造

上置信强化学习中的探索优化

UCRL3 算法是在 UCRL2 算法的基础上引入了专业时间均匀集中不等式和每个状态 - 动作对奖励和转移分布的置信区间等改进，以减少探索来优化分布，理论上改善了 UCRL2 算法，在标准环境下的数值实验也证明了 UCRL3 算法的实用性和有效性。

Apr, 2020

一种融合估计和规划的最大化目标用于探索

本研究提出了一个易于实现的 RL 框架 Maximize to Explore（MEX），它通过最大化一个综合了估计和规划分量的单一目标，在自动平衡探索和利用方面实现了比现有算法更高的采样效率，并实现了更低的计算成本和更好的与现代深度 RL 方法兼容性。

May, 2023

自适应无奖励探索

我们提出了一种新的自适应奖励免费探索方法，直接降低最大 MDP 估计误差的上限并证明了 RF-UCRL 算法具有良好的采样复杂性界限，可以看作是 Fiechter 算法的变体，该算法最初是针对另一种目标：最佳策略识别。

Jun, 2020

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+，其在 Bernstein 类型的探索奖励的帮助下，具有常数估计的 L2 误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。

Jun, 2022

在线马尔可夫决策过程中全局凸奖励的强化学习中的勘探利用权衡

研究了在 Markov 决策问题中，代理人通过在线凸规划算法设计非固定策略，以最大化全局凹奖励函数和矢量结果的均值，以解决多目标优化和 Markov 环境下的受限优化问题。

May, 2019

低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

我们研究了风险敏感的强化学习 (RL)，其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL，功能逼近必须得到部署。在非线性功能逼近中，我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解，但与线性模型不同，低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法，以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR，其中 H 是每个 episode 的长度，A 是动作空间的容量，d 是表示的维度。在计算方面，我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期，并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知，这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。

Nov, 2023

基于核的强化学习：有限时间分析

本文提出了一种基于核变量的乐观算法 Kernel-UCBVI，以及使用平滑核估计 MDP 奖励和转移的方法，以在探索和开发之间有效平衡，从而解决了有限时间内强化学习中的探索与开发困境。在连续 MDP 应用中，本文通过实验验证了该方法。

Apr, 2020

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

近乎最小最大化优化强化学习在折扣 MDPs 上

通过乐观不确定性原则和伯恩斯坦型奖励设计的算法 UCBVI-γ，最小化为折扣 MDPs 所得出的代价，其误差上界是 sqrt (SAT)/(1−γ)^(3/2)，与 minimax 下界的误差相等。

Oct, 2020

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020