具有广义函数近似的考虑不确定性的无奖励探索

ICMLJun, 2024

具有广义函数近似的考虑不确定性的无奖励探索

Uncertainty-Aware Reward-Free Exploration with General Function Approximation

Junkai Zhang, Weitong Zhang, Dongruo Zhou, Quanquan Gu

TL;DR通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法，其中的关键思想是通过不确定性感知的内在奖励来探索环境，并通过不同样本的不确定性加权学习处理异质性不确定性，通过在 DeepMind Control Suite 的各个领域和任务上的实验结果表明，该算法优于或与现有的无监督强化学习算法的性能相当。

Abstract

Mastering multiple tasks through exploration and learning in an environment poses a significant challenge in reinforcement learning (RL). unsupervised rl has been introduced to address this challenge by training

reinforcement learning unsupervised rl intrinsic rewards sample efficiency reward-free rl algorithm

发现论文，激发创造

强化学习的无奖励探索

该论文提出了一个新的 “无奖励强化学习” 框架，通过在探索阶段从 MDP 采集轨迹来找到探索策略，并使用黑盒近似规划器计算接近最优的策略。

Feb, 2020

自适应无奖励探索

我们提出了一种新的自适应奖励免费探索方法，直接降低最大 MDP 估计误差的上限并证明了 RF-UCRL 算法具有良好的采样复杂性界限，可以看作是 Fiechter 算法的变体，该算法最初是针对另一种目标：最佳策略识别。

Jun, 2020

使用线性函数逼近的无奖励模型强化学习

本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程，并提出了一种新算法 UCRL-RFE，其中使用线性函数对状态、动作和下一个状态进行特征映射，能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsilon^{-2})$ 周期，用于构建奖励函数并实现任意奖励下的 $\epsilon$- 最优策略。

Oct, 2021

强化学习中的无任务探索

该研究提出了一种称为任务不可知强化学习 (task-agnostic RL) 的框架，用于解决强化学习中的有效探索挑战，该框架利用样本奖励值和一系列探索轨迹来发现复杂任务的最优策略，并给出了基于样本奖励值的有效算法 UCBZero。

Jun, 2020

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

强化学习中最小化 - 最优化奖励无关探索

本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率，该算法不需要提前了解奖励函数。算法最多需要采集 SAH^3/ε^2 个样本轨迹就能对于所有感兴趣的奖励函数找到 ε-optimal 策略，而且算法还能在样本量超过 S^2AH^3/ε^2 个轨迹时无限找到 ε-optimal 策略，即便这些奖励函数是对抗性设计的。

Apr, 2023

基于核和神经函数逼近的无奖励强化学习：单智能体马尔可夫决策过程和马尔可夫博弈

该研究针对强化学习中探索困境的问题，研究了无奖励的强化学习问题，提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法，证明了该方法可以在提供任意外界奖励的情况下，实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度，是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。

Oct, 2021

使用线性函数逼近进行无奖励强化学习

在不需要奖励函数的情况下，在批量强化学习和多个奖励函数的领域中，代理人可以收集数据，然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习，并得出一个算法的样本复杂度是多项式时间，与状态和动作的数量无关。

Jun, 2020

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

May, 2020

面向能适应非结构化数据的无模型强化学习算法的发展

强化学习算法在尺度递增和非结构化观测方面表现良好的方法，能够有效利用外部知识构建预测结构，并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。

Nov, 2023