粒子价值函数

Mar, 2017

Particle Value Functions

Chris J. Maddison, Dieterich Lawson, George Tucker, Nicolas Heess, Arnaud Doucet...

TL;DR本文介绍从经济学和控制学文献中借鉴的风险敏感价值函数及其对粒子值函数的引入，探讨这些函数对于强化学习问题的应用，以及在Cliffworld场景中评估政策梯度的效益。

Abstract

The policy gradients of the expected return objective can react slowly to rare rewards. Yet, in some cases agents may wish to emphasize the low or high returns regardless of their probability. Borrowing from the economics and control literature, we review the →

发现论文，激发创造

用于折扣和平均奖励 MDP 的方差约束Actor-Critic算法

研究采用演员-评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

通过采样优化CVaR

基于条件期望的公式，我们提出了一种新的基于采样的CVaR梯度估计器，类似于似然比方法。我们分析了估计器的偏差，并证明了相应随机梯度下降算法的收敛性，使CVaR优化可以在新的领域应用。例如，我们考虑一个强化学习应用，为Tetris游戏学习风险敏感的控制器。

Apr, 2014

认知风险敏感强化学习

本文介绍了一种基于偏爱函数的风险感知的增强学习框架，在不确定的环境下可以通过调节风险偏好参数实现风险规避，风险中性或风险承受。同时，作者使用动态规划和策略梯度算法来衡量和控制认知风险，并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。

Jun, 2019

风险敏感的强化学习:在遗憾中实现近乎最优的风险-样本平衡

本文研究了未知转移核情况下的风险敏感强化学习问题，提出了两种模型无关的算法，Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ)，证明了它们的近似最优性，并在样本效率和风险敏感之间达成了权衡（利用类指数效用量化了这种权衡），对风险敏感的强化学习做了第一次回报分析，证明该算法的准最优性。

Jun, 2020

针对风险感知强化学习的分布式模型等价性

本文研究的问题是如何学习用于风险敏感强化学习的模型。我们提出了通过分布强化学习引入两个新的模型等价概念，可以使我们规划任何风险度量的最优解，但我们还提出了一种实用可行的风险度量模型并展示了我们的框架可以用来增强任何模型无关的风险敏感算法。

Jul, 2023

强化学习中的极端风险缓解基于极值理论

通过使用极值理论参数化分布的方法提高强化学习中的风险敏感能力，以应对罕见的危险事件并优化状态动作值函数估计。实验结果表明，该方法在各种不同风险场景的测试中优于其他风险规避的强化学习算法。

Aug, 2023

马尔可夫决策过程中的超越平均回报

马尔可夫决策过程中，奖励的功能有哪些可以精确计算和优化？我们总结了策略评估相关类的特性，给出了规划问题的新解答。同时，我们证明了只有广义平均数能够被精确优化，即使在分布式强化学习的更通用框架下也是如此。这些结果为推进马尔可夫决策过程的理论发展做出了贡献，尤其关注回报的整体特征和风险感知策略。

Oct, 2023

风险敏感马尔可夫决策过程与普遍效用函数下的学习

在实践中，决策者经常面临着不同的风险偏好和不确定性的情况，传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法，并设计了可实现的近似算法来求解该问题。

Nov, 2023

马尔可夫游戏和多智能体强化学习中的风险敏感性：一项系统综述

Markov games和multi-agent reinforcement learning研究了多智能体系统中的决策制定模型。本文系统回顾了最近几年在risk-sensitive MG和MARL领域中增长的相关文献，并定义和数学描述了在MG和MARL中使用的不同风险度量，并讨论了各个度量所涵盖的文章。最后，我们识别了该领域理论和应用研究的最新趋势，并讨论了未来研究的可能方向。

Jun, 2024

悲观遇见风险：风险敏感的离线强化学习

我们研究了风险敏感强化学习，该领域因其在必须管理不确定性和最小化潜在不利结果的情况下提高决策能力而至关重要。尤其是，我们的工作重点是将熵风险度量应用于强化学习问题。我们提出了两种能够证明样本利用效率的算法，分别是基于风险敏感的悲观值迭代算法和利用方差信息和参考优势分解的悲观算法，这有效地改善了对空间维度d和风险敏感因子的依赖。据我们所知，我们获得了第一批能够有证据表明有效的风险敏感离线强化学习算法。

Jul, 2024