经证明高效的部分可观察风险敏感强化学习与事后观测

Feb, 2024

经证明高效的部分可观察风险敏感强化学习与事后观测

Provably Efficient Partially Observable Risk-Sensitive Reinforcement Learning with Hindsight Observation

Tonghe Zhang, Yu Chen, Longbo Huang

TL;DR该论文通过引入后见观察机制，研究了部分可观测环境下风险敏感强化学习的悔恨分析，提出了在部分可观测马尔可夫决策过程框架下优化累积奖励的新方法。通过严格的分析证明了算法在模型降级为风险中性或完全可观测设置时，能够实现多项式悔恨。该研究对强化学习的理论研究具有特殊意义。

Abstract

This work pioneers regret analysis of risk-sensitive reinforcement learning in partially observable environments with →

发现论文，激发创造

风险敏感的强化学习:在遗憾中实现近乎最优的风险-样本平衡

本文研究了未知转移核情况下的风险敏感强化学习问题，提出了两种模型无关的算法，Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ)，证明了它们的近似最优性，并在样本效率和风险敏感之间达成了权衡（利用类指数效用量化了这种权衡），对风险敏感的强化学习做了第一次回报分析，证明该算法的准最优性。

Jun, 2020

具有短期记忆的可证明强化学习

本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类POMDP，它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法，并建立了一组在表格和丰富观察设置下，学习这类问题的近优策略的样本复杂性的上下界，并证明了短期记忆对于这些环境的强化学习已经足够。

Feb, 2022

部分可观察的强化学习何时不可怕？

该论文介绍了应用于部分可观测的情况下的强化学习模型，探讨了在一些特殊情况下该模型的使用，提出了一种通过乐观估计与极大似然估计相结合的简单算法，能够保证在这些特殊情况下有多项式样本复杂度可行的方法。

Apr, 2022

可观测POMDP中的学习, 无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索-利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

乐观极大似然估计——用于部分可观测序列决策的通用基于模型的算法

此研究介绍了一个简单高效的学习算法OMLE，它结合了探索优化和极大似然估计，可在多项式数量的样本中学习当今已知的大多数可处理的强化学习问题，包括POMDP和SAIL条件下的普通顺序决策问题，并提供了一种奖励免费的近似动态模型学习方法。

Sep, 2022

通过可证明遗憾界实现分布式和风险敏感的强化学习

研究了通过分布式强化学习方法实现风险敏感强化学习的后悔保证，提出了两种新的DRL算法，并通过样本复杂度桥接了DRL和RSRL。同时还改进了现有的下限，并提出了更紧的下限。

Oct, 2022

非平稳风险敏感强化学习: 近似最优动态遗憾、自适应检测和分离设计

研究使用熵风险度量在非平稳有限马尔可夫决策过程中采用风险敏感强化学习，提出了两种基于重启的算法以及自适应检测不稳定性的元算法，并证明了算法的动态后悔下界。该研究为文献中的非平稳风险敏感强化学习提供了首个非渐近理论分析。

Nov, 2022

具有不完全可观测性的高效强化学习：学会通过延迟和缺失状态观测来行动

本文研究在控制系统中如何高效地进行强化学习，以应对代理无法实时观察系统最新状态的延迟和缺失观测，通过建立新的近似损失边界方法，可以在考虑状态-动作大小的情况下实现学习的高效性，与完全可观测性下的最优方案进行比较。

Jun, 2023

多观测视角下的样本高效学习POMDPs

该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究，并提出了一种增强的反馈模型，可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的POMDP子类：多观察揭示POMDP和可区分POMDP，同时这两个子类也放宽了传统的揭示POMDP的要求。

Jul, 2023

悲观遇见风险：风险敏感的离线强化学习

我们研究了风险敏感强化学习，该领域因其在必须管理不确定性和最小化潜在不利结果的情况下提高决策能力而至关重要。尤其是，我们的工作重点是将熵风险度量应用于强化学习问题。我们提出了两种能够证明样本利用效率的算法，分别是基于风险敏感的悲观值迭代算法和利用方差信息和参考优势分解的悲观算法，这有效地改善了对空间维度d和风险敏感因子的依赖。据我们所知，我们获得了第一批能够有证据表明有效的风险敏感离线强化学习算法。

Jul, 2024