几乎极小化最优无奖学习

Oct, 2020

Nearly Minimax Optimal Reward-free Reinforcement Learning

Zihan Zhang, Simon S. Du, Xiangyang Ji

TL;DR研究奖励免费强化学习框架，提出新的有效算法 SS+TP，通过探索和计划两个阶段，分别进行轨迹收集和任意奖励函数优化，达到对多个奖励函数的策略优化。

Abstract

We study the reward-free reinforcement learning framework, which is particularly suitable for batch reinforcement learning and scenarios where one needs policies for multiple reward functions. This framework has

reward-free reinforcement learning batch reinforcement learning policy optimization trajectory sampling policy planning

发现论文，激发创造

强化学习的无奖励探索

该论文提出了一个新的 “无奖励强化学习” 框架，通过在探索阶段从 MDP 采集轨迹来找到探索策略，并使用黑盒近似规划器计算接近最优的策略。

Feb, 2020

强化学习中最小化 - 最优化奖励无关探索

本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率，该算法不需要提前了解奖励函数。算法最多需要采集 SAH^3/ε^2 个样本轨迹就能对于所有感兴趣的奖励函数找到 ε-optimal 策略，而且算法还能在样本量超过 S^2AH^3/ε^2 个轨迹时无限找到 ε-optimal 策略，即便这些奖励函数是对抗性设计的。

Apr, 2023

突破样本复杂度障碍，实现后悔优化的无模型强化学习

通过引入方差缩减策略，设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题，该算法的空间复杂度为 $ O (SAH)$，较以前的算法提高了 $S^5A^3$ 倍的效率。

Oct, 2021

无模型强化学习：从剪切伪懊恼到样本复杂度

本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策，该算法的成功概率为 (1-p)，且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3))，其中 S 是状态数，A 是行动数，γ 是折扣因子，ε 是一个近似阈值

Jun, 2020

基于线性函数逼近的无奖励强化学习中的近最优部署效率

研究如何在施加 “无回报探索” 的情况下，使用线性函数逼近在提高效率时落地实施策略，最后我们提出了一种新算法，只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹，在不同的奖励函数设定下，即可找到一个 ε- 最优策略，并且在样本复杂度和 d 依赖性中同时达到最优的部署复杂度。

Oct, 2022

强化学习中的无任务探索

该研究提出了一种称为任务不可知强化学习 (task-agnostic RL) 的框架，用于解决强化学习中的有效探索挑战，该框架利用样本奖励值和一系列探索轨迹来发现复杂任务的最优策略，并给出了基于样本奖励值的有效算法 UCBZero。

Jun, 2020

使用线性函数逼近进行无奖励强化学习

在不需要奖励函数的情况下，在批量强化学习和多个奖励函数的领域中，代理人可以收集数据，然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习，并得出一个算法的样本复杂度是多项式时间，与状态和动作的数量无关。

Jun, 2020

基于平均奖励的马尔可夫决策过程更为精确的无模型强化学习

我们提出了多种经过证明有效的无模型强化学习算法，包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法，在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。

Jun, 2023

使用线性函数逼近的无奖励模型强化学习

本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程，并提出了一种新算法 UCRL-RFE，其中使用线性函数对状态、动作和下一个状态进行特征映射，能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsilon^{-2})$ 周期，用于构建奖励函数并实现任意奖励下的 $\epsilon$- 最优策略。

Oct, 2021

几乎没有视野限制的离线强化学习

本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题，并提出了一种递归方法来限制离线场景下的 “总方差” 项，得到了近似无视野远的样本复杂度上限。

Mar, 2021