分层强化学习: 面对不确定性的悲观和恒定遗憾

May, 2022

分层强化学习: 面对不确定性的悲观和恒定遗憾

Tiered Reinforcement Learning: Pessimism in the Face of Uncertainty and Constant Regret

Jiawei Huang, Li Zhao, Tao Qin, Wei Chen, Nan Jiang...

TL;DR提出了一个学习框架，该框架使用两个算法与多层次结构的用户交互应用程序中的用户进行分组，以分别处理他们的不同探索风险容忍度，并研究了将Pessimistic Value Iteration作为利用算法的应用。

Abstract

We propose a new learning framework that captures the tiered structure of many real-world user-interaction applications, where the users can be divided into two groups based on their different tolerance on exploration risks and should be treated separately. In this setting, we simultan

发现论文，激发创造

使用值函数界限在没有领域知识的情况下加强强化学习的问题相关遗憾范围

该研究针对有限时间段的离散马尔科夫决策问题，提出了一种算法并分析了其性能上限，得出了最先进的范围和如果环境规范小则更紧的限制，其不需要先前对应环境规范的知识，能解决经验学习中常常遇到的限制问题。

Jan, 2019

风险敏感的强化学习:在遗憾中实现近乎最优的风险-样本平衡

本文研究了未知转移核情况下的风险敏感强化学习问题，提出了两种模型无关的算法，Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ)，证明了它们的近似最优性，并在样本效率和风险敏感之间达成了权衡（利用类指数效用量化了这种权衡），对风险敏感的强化学习做了第一次回报分析，证明该算法的准最优性。

Jun, 2020

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

超越价值函数差距：改进的基于实例的遗憾界限用于情节马尔可夫决策过程强化学习

为有限的Merkov决策过程中的强化学习提供了更好的基于间隙的遗憾度量方法。

Jul, 2021

具有不确定情节长度的在线强化学习

研究了应用于随机episode长度的模型下的强化学习框架，设计出相应的regret最小化的强化学习算法，并用于价值迭代算法在网格环境下的对比。

Feb, 2023

分层强化学习中鲁棒的知识传递

本文研究分层强化学习的并行传输学习框架，提出了新的在线学习算法以及转移来源选择机制来实现对高层任务的常数后悔性，在多低层任务的情况下也能获得更大的状态行为空间的利益。

Feb, 2023

离线强化学习中的生存本能

研究表明，线下强化学习算法具有一定的鲁棒性，即使使用错误的奖励标签经过训练，也能产生表现良好和安全的策略。该现象归功于线下RL算法中的悲观主义和常见数据收集实践中的某种偏见之间的相互作用，该特性在解释现有离线RL基准结果和创建未来基准时应该被考虑。

Jun, 2023

顺序任务设置中最小化局部遗憾的谬误

强化学习中，研究任务间具有变化时，通过最小化后悔累积可以实现更好的结果，即在每个任务中过度探索，尤其在任务之间出现重大变化时。

Mar, 2024

悲观遇见风险：风险敏感的离线强化学习

我们研究了风险敏感强化学习，该领域因其在必须管理不确定性和最小化潜在不利结果的情况下提高决策能力而至关重要。尤其是，我们的工作重点是将熵风险度量应用于强化学习问题。我们提出了两种能够证明样本利用效率的算法，分别是基于风险敏感的悲观值迭代算法和利用方差信息和参考优势分解的悲观算法，这有效地改善了对空间维度d和风险敏感因子的依赖。据我们所知，我们获得了第一批能够有证据表明有效的风险敏感离线强化学习算法。

Jul, 2024

平均奖励和分段强化学习的乐观Q学习

我们提出了一种乐观的Q学习算法，用于在额外假设下的平均奖励强化学习中实现遗憾最小化，该额外假设是对底层MDP的所有策略来说，访问某些频繁状态s0的预期时间是有限的并且上界为H。

Jul, 2024