部分可观测深度强化学习的后悔最小化

ICMLOct, 2017

部分可观测深度强化学习的后悔最小化

Regret Minimization for Partially Observable Deep Reinforcement Learning

Peter Jin, Kurt Keutzer, Sergey Levine

TL;DR本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法，能够有效处理部分观测状态，并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有基线算法。

Abstract

deep reinforcement learning algorithms that estimate state and state-action value functions have been shown to be effective in a variety of challenging domains, including learning control strategies from raw image pixels. However, algorithms that estimate state and state-action value f

deep reinforcement learning counterfactual regret minimization partially observed state 3d navigation reinforcement learning tasks

发现论文，激发创造

基于遗憾的优化方法用于强化学习的鲁棒性

该论文提出一种更为积极的方法改进深度强化学习中的强健性，采用最小化最大后悔作为优化方法，并证明该方法可显著提高性能。

Feb, 2023

可验证的表示与高效规划用于部分可观察强化学习

本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题，并通过对表示视图的利用提出了一种可行的强化学习算法，可在部分观测输入下实现比现有算法更高的性能，推动可靠强化学习在实际应用中的应用。

Nov, 2023

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

经证明高效的部分可观察风险敏感强化学习与事后观测

该论文通过引入后见观察机制，研究了部分可观测环境下风险敏感强化学习的悔恨分析，提出了在部分可观测马尔可夫决策过程框架下优化累积奖励的新方法。通过严格的分析证明了算法在模型降级为风险中性或完全可观测设置时，能够实现多项式悔恨。该研究对强化学习的理论研究具有特殊意义。

Feb, 2024

使用函数遗憾估计来解决游戏

本文提出了一种新的在线学习方法，用于在大型 extensive-form 游戏中最小化后悔。该方法通过在线学习函数逼近器来估计选择特定行动的后悔值，并使用无悔算法根据这些估计值来定义一系列策略。我们证明了该方法的正确性，并证明了只要逼近函数能够实现后悔值，方法就能自我学习并收敛到纳什均衡。我们的技术可以被理解为现有大型游戏中抽象工作的原则性推广；在我们的工作中，抽象和均衡都是在自我博弈中学习的。我们在实验中展示了该方法可以在相同资源条件下实现比最先进的抽象技术更高质量的策略。

Nov, 2014

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018

具有不完全可观测性的高效强化学习：学会通过延迟和缺失状态观测来行动

本文研究在控制系统中如何高效地进行强化学习，以应对代理无法实时观察系统最新状态的延迟和缺失观测，通过建立新的近似损失边界方法，可以在考虑状态 - 动作大小的情况下实现学习的高效性，与完全可观测性下的最优方案进行比较。

Jun, 2023

基于模型的强化学习中贪心策略的严格遗憾界

本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL，证明了探索具有贪心策略可以实现紧密的极小极大性能，从而完全避免使用 full-planning，而复杂度降为 S，并通过实时动态规划进行了新颖的分析。

May, 2019

用最优后悔学习在度量空间中控制

探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题，提出了一种基于上置信强化学习的 Q 函数的乐观估计算法，证明了算法的性能界限和下界。

May, 2019

通过评估最优偏置函数实现强化学习的遗憾最小化

基于 “面对不确定性的乐观原则” 的算法，使用有限状态 - 动作空间的、用马尔可夫决策过程（MDP）建模的强化学习（RL）有效学习。通过评估最佳偏置函数 $h^{*}$ 的状态对差异，该算法在已知 $sp (h^{*})$ 的情况下实现 MDP 的遗憾界为 $\tilde {O}(\sqrt {SAHT})$，这个结果超过了先前的最佳遗憾界 $\tilde {O}(S\sqrt {AHT})$，并且匹配了遗憾下界。此外，对于有限直径 $D$ 的 MDP，我们证明了 $ ilde {O}(\sqrt {SADT})$ 接近于最佳遗憾上界。

Jun, 2019