长期强化学习是否比短期强化学习更困难？

May, 2020

长期强化学习是否比短期强化学习更困难？

Is Long Horizon Reinforcement Learning More Difficult Than Short Horizon Reinforcement Learning?

Ruosong Wang, Simon S. Du, Lin F. Yang, Sham M. Kakade

TL;DR通过构建 ε- 网络和在线轨迹合成算法，证明纯表格的情况下，对于每个长度的规划时间，可以通过对数级的样本复杂度在多项式时间内发现适当规范化后的最佳策略，从而证明了一个假设，即规划时间的增加并不会增加学习长时序的 RW 的难度。

Abstract

Learning to plan for long horizons is a central challenge in episodic reinforcement learning problems. A fundamental question is to understand how the difficulty of the problem scales as the horizon increases. Here the natural measure of sample complexity is a normalized one: we are in

episodic reinforcement learning sample complexity planning horizon value policy

发现论文，激发创造

固定视界强化学习的样本复杂度

本文研究了固定时间段内交互式学习智能体的表现，并从样本复杂度的角度提出了上下 PAC 确定性保证边界，为固定时间段内 MDP 的研究提供了理论上的支持。

Oct, 2015

强化学习是否比赌博机问题更困难？一种逃离时限诅咒的近似最优算法

提出了一种新的基于 Bernoulli 奖励的算法 Monotonic Value Propagation（MVP）来应对具有长期规划的暂态强化学习问题，并通过证明其具有与语境损失算法相同且优于最先进的算法的范围复杂度，使其能够有效地处理此类问题。

Sep, 2020

逆强化学习有效视野

本研究分析了逆强化学习的时间跨度对于奖励估计准确性和计算效率的影响，并提出了使用更短的时间跨度可以更快地产生更好结果的解释。此研究还提出了在逆强化学习中一起学习奖励和有效时间跨度比独立学习奖励更为自然的看法。实验结果证实了理论分析。

Jul, 2023

使用线性函数逼近的强化学习的指数难度

研究了线性回报学习中底层的计算下界问题，并在随机指数时间假设下显示出指数级下界，证明了底层计算困难性，并且展示了一个接近最优算法的时域依赖性下界。

Feb, 2023

解决组合复杂度高的长视界深度强化学习任务的挑战

通过提出一系列机器人任务，不需要额外的专业探索便可解决的优化问题，研究发现标准强化学习方法往往由于折扣而忽视长期影响，而通用层次强化学习方法则需要额外的抽象领域知识。

Jun, 2022

几乎没有视野限制的离线强化学习

本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题，并提出了一种递归方法来限制离线场景下的 “总方差” 项，得到了近似无视野远的样本复杂度上限。

Mar, 2021

几乎极小化最优无奖学习

研究奖励免费强化学习框架，提出新的有效算法 SS+TP，通过探索和计划两个阶段，分别进行轨迹收集和任意奖励函数优化，达到对多个奖励函数的策略优化。

Oct, 2020

在线强化学习的样本复杂度界定

在线强化学习中的数据效率是一个核心问题，本文针对有限时间不均匀马尔可夫决策过程，证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性，并且没有任何预烧成本，其样本复杂度也是最优的。

Jul, 2023

在对抗性线性混合 MDPs 中的无限制视野强化学习

本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法，使用方差 - 不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术，以解决探索和对抗性奖励所带来的挑战，证明算法在全信息反馈下具有 O ((d+log (|S|^2|A|)) sqrt (K)) 的后悔界，其中 d 是未知转移核线性参数化的已知特征映射的维数，K 是剧集数量，|S| 和 |A| 是状态和行为空间的基数。

May, 2023

突破样本复杂度障碍，实现后悔优化的无模型强化学习

通过引入方差缩减策略，设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题，该算法的空间复杂度为 $ O (SAH)$，较以前的算法提高了 $S^5A^3$ 倍的效率。

Oct, 2021