具流式观察的贝叶斯风险厌恶 Q 学习

May, 2023

具流式观察的贝叶斯风险厌恶 Q 学习

Bayesian Risk-Averse Q-Learning with Streaming Observations

Yuhao Wang, Enlu Zhou

TL;DR本研究提出一种用于强化学习中的贝叶斯风险 MDP 问题的解决方法，旨在平衡鲁棒性和保守性。研究通过采用后验贝叶斯来估计转移模型，结合风险功能来控制模型的不确定性，并开发了多级贝叶斯风险敏感的 Q-learning 算法来解决问题。

Abstract

We consider a robust reinforcement learning problem, where a learning agent learns from a simulated training environment. To account for the model mis-specification between this training environment and the real environment due to lack of data, we adopt a formulation of →

reinforcement learning bayesian risk mdp model uncertainty real-world observations multi-stage algorithm

发现论文，激发创造

稳健强化学习的贝叶斯方法

本文提出了基于不确定性鲁棒贝尔曼方程（URBE）的 DQN-URBE 算法，通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数，并能够快速调整参数以适应系统行为的变化，在保持鲁棒性的同时获得更少保守的解。

May, 2019

使用贝叶斯方法学习马尔可夫决策过程中的 Bandit 结构

研究了强化学习中决策问题的环境类型不确定性问题，提出了一种基于贝叶斯假设检验方法的在线算法，可以在上下文探索和马尔科夫过程决策算法之间互相转换来适应环境类型，以避免不合适的环境假设引起的低效问题。

Jul, 2022

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

无模型鲁棒平均奖励强化学习

该研究主要关注如何处理模型不确定性对于 Markov 决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。

May, 2023

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

具有对抗性辅助模型的强化学习鲁棒模型

应用鲁棒 MDPs 框架及引入一种新型的学习过渡模型，该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性，并在实验中展示了该模型在失真 MDPs 中提高学习策略性能的显著改进。

Jun, 2024

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

无穷时间 MDP 的离线数据高效在线学习：一种贝叶斯方法

本文研究了在线强化学习问题在无限时间段环境中的高效解决方法，其中假设有一个离线数据集作为起点，由一个未知能力水平的专家生成，我们展示了如果学习代理建模了专家使用的行为策略，它可以在最小化累计遗憾方面表现得更好，我们建立了一个前瞻性依赖先验的遗憾界限，提出了近似的被告知 RLSVI 算法，可以解释为使用离线数据集进行模仿学习，然后进行在线学习。

Oct, 2023