函数逼近的 Epsilon-Greedy 强化学习保证

ICMLJun, 2022

函数逼近的 Epsilon-Greedy 强化学习保证

Guarantees for Epsilon-Greedy Reinforcement Learning with Function Approximation

Christoph Dann, Yishay Mansour, Mehryar Mohri, Ayush Sekhari, Karthik Sridharan

TL;DR本文针对 RL 领域中近视探索政策（如 epsilon-greedy、softmax 或 Gaussian noise）在实际应用中表现出全部、部分失败的情况，提出了一种称为 “myopic exploration gap” 的新复杂度度量方式，探讨了它们在特定任务中表现出良好性质和优势。

Abstract

Myopic exploration policies such as epsilon-greedy, softmax, or Gaussian noise fail to explore efficiently in some reinforcement learning tasks and yet, they perform well in many others. In fact, in practice, the

reinforcement learning exploration policies value-function-based algorithms sample complexity myopic exploration gap

发现论文，激发创造

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023

强化学习的无奖励探索

该论文提出了一个新的 “无奖励强化学习” 框架，通过在探索阶段从 MDP 采集轨迹来找到探索策略，并使用黑盒近似规划器计算接近最优的策略。

Feb, 2020

基于模型的强化学习中贪心策略的严格遗憾界

本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL，证明了探索具有贪心策略可以实现紧密的极小极大性能，从而完全避免使用 full-planning，而复杂度降为 S，并通过实时动态规划进行了新颖的分析。

May, 2019

时间延长下的 ε- 贪心探索

本文提出了一种基于时域的 ε- 贪心探索算法，通过重复随机采样的行为来提高探索效果，该算法在许多不同领域都有良好的表现。

Jun, 2020

探索感知强化学习再探

研究在强化学习中的探索和利用的权衡，通过解决探索感知标准来获得最优政策，结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中，相对于非探索感知对应物表现出更好的性能。

Dec, 2018

几乎极小化最优无奖学习

研究奖励免费强化学习框架，提出新的有效算法 SS+TP，通过探索和计划两个阶段，分别进行轨迹收集和任意奖励函数优化，达到对多个奖励函数的策略优化。

Oct, 2020

迎合挑剔的顾客：多目标强化学习的遗憾界与探索复杂度

提出一种基于马尔可夫决策过程的实现多目标强化学习的模型，针对不确定性的 reward 函数，使用内积方法建立了一种新的衡量指标，探讨了在线学习以及基于 Preference-free exploration 的学习方式，并提出了一种轨迹复杂度几乎最优的算法。

Nov, 2020

关于具有 $ε$- 贪心探索的 Deep Q-Networks 的收敛性和样本复杂度分析

该论文通过理论分析探讨了深度强化学习中的深度 Q 网络（DQN）和 ε- 贪心探索。论文提供了对实际情况下采用 ε- 贪心策略的 DQN 的首个理论收敛性和样本复杂度分析，并证明了带有递减 ε 的迭代过程能够几何收敛到最优 Q 值函数。实验验证了论文中得出的理论结论对 DQN 的有效性。

Oct, 2023

在线和近似强化学习中的多步贪心策略

本文研究了使用多步贪婪算法的实际应用，发现在软策略更新时，只有更新步长足够大，才能保证单调策略改进，提出了组合在线和近似算法。

May, 2018

基于核和神经函数逼近的无奖励强化学习：单智能体马尔可夫决策过程和马尔可夫博弈

该研究针对强化学习中探索困境的问题，研究了无奖励的强化学习问题，提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法，证明了该方法可以在提供任意外界奖励的情况下，实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度，是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。

Oct, 2021