有效性视野解释随机环境中的深度强化学习表现

Dec, 2023

有效性视野解释随机环境中的深度强化学习表现

The Effective Horizon Explains Deep RL Performance in Stochastic Environments

Cassidy Laidlaw, Banghua Zhu, Stuart Russell, Anca Dragan

TL;DR解释为什么深度强化学习算法在实践中表现良好，介绍一种新的强化学习算法 SQIRL，它通过随机探索收集数据，并在这些数据上执行有限次数的值迭代来学习接近最优的策略。

Abstract

reinforcement learning (RL) theory has largely focused on proving minimax sample complexity bounds. These require strategic exploration algorithms that use relatively limited function classes for representing the policy or value function. Our goal is to explain why →

reinforcement learning deep rl algorithms sqirl value iteration random exploration

发现论文，激发创造

用有效视界连接强化学习理论与实践

使用 BRIDGE 数据集发现，深层强化学习中有效的 Horizon 为 PPO 和 DQN 算法的表现提供了更好的度量；并且可以预测使用奖励塑形或预训练探索策略的影响。

Apr, 2023

逆强化学习有效视野

本研究分析了逆强化学习的时间跨度对于奖励估计准确性和计算效率的影响，并提出了使用更短的时间跨度可以更快地产生更好结果的解释。此研究还提出了在逆强化学习中一起学习奖励和有效时间跨度比独立学习奖励更为自然的看法。实验结果证实了理论分析。

Jul, 2023

前瞻性逆强化学习

本文提出了一种适用于高维、噪声、连续的黑盒动态模型系统的新的逆强化学习算法 —— 逐步退化逆强化学习（RHIRL）以解决 IRL 面临的可扩展性和鲁棒性两大挑战。实验表明，RHIRL 在大多数情况下优于其他主流 IRL 算法，并且我们还证明了其累积误差随任务持续时间的线性增长。

Jun, 2022

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

当简单探索具有样本效率：确定随机探索达到 PAC RL 算法的充分条件

本研究提出了基于随机游走探索的 Q 学习的问题特定样本复杂度界限，该界限依赖于多个结构性质，并将理论结果与某些经验基准领域相关联，以说明我们的界限在这些领域中是否具有多项式样本复杂度并与经验绩效相关。

May, 2018

揭开面纱：释放 Q 学习中的深度之力

通过统计学习理论的框架，我们理论上证实了深度 Q 学习在捕捉奖励的特殊属性上表现优秀，进而证明了深度 Q 学习优于传统 Q 学习的泛化误差边界，并在供应链管理中的知名啤酒游戏和模拟推荐系统中验证了我们的理论断言。

Oct, 2023

大规模离散动作空间的随机 Q 学习

在复杂环境中，使用深度神经网络作为函数近似器的大离散行为空间的强化学习问题中，传统的基于值的强化学习方法存在计算负担，本文提出了一种用于优化前 $n$ 个动作集合的变量随机子集的基于值的强化学习方法，并通过理论证明和实证验证表明，在不同控制问题上，这些方法在减少时间的同时仍能实现接近最优的平均回报。

May, 2024

基于分布式强化学习的高效探索技术

本论文提出的一种深度深度强化学习探索方法具有两个组成部分：有一个递减的时间表来抑制内在不确定性，一个探索奖励是从所学分布的上分位数中计算出来的，实验结果表明，我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩，在难度较大的 3D 驾驶模拟器 (CARLA) 中，我们的算法安全奖励达到了近乎最优，比 QRDQN 快两倍。

May, 2019

深度反向 Q 学习与约束

提出了一种新的算法类，仅需要解决一次 MDP 就能恢复专家策略，在 Continuous state-spaces 中使用函数逼近估算相应的行动 - 价值函数，可以有效替代 (深度) Max-Entropy 算法用于自主驾驶的学习。

Aug, 2020