强化学习的参数回报密度估计

Mar, 2012

Parametric Return Density Estimation for Reinforcement Learning

Tetsuro Morimura, Masashi Sugiyama, Hisashi Kashima, Hirotaka Hachiya, Toshiyuki Tanaka

TL;DR本文介绍了一种用于处理统一风险管理目的的参数化收益率密度估计方法，以延伸 Bellman 方程，用 TD 学习算法估计未知环境中的收益率密度，最后用数值实验证明了该方法通过几种参数化密度估计算法实现风险敏感和稳健强化学习范式。

Abstract

Most conventional reinforcement learning (RL) algorithms aim to optimize decision-making rules in terms of the expected returns. However, especially for risk management purposes, other risk-sensitive criteria suc

reinforcement learning risk management value-at-risk expected shortfall parametric density estimation

发现论文，激发创造

超越预期回报：在评估强化学习算法时考虑政策可复制性

研究表明，强化学习中存在噪音和随机性，现有的评估程序仅使用期望回报评估政策，限制其在比较政策和选择最佳权衡值方面的有效性。本研究通过推荐使用贝叶斯优化中的置信下界指标，为用户提供选择所需性能与重复性权衡的参数，并通过大量实验验证了这些指标的益处。

Dec, 2023

分布式强化学习中的统计和样本

本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法，提出了一种新算法 EDRL，同时介绍了 ER-DQN，将 EDRL 应用在 Atari-57 游戏集上进行了评估。

Feb, 2019

关于可重参数化强化学习中的泛化差距

研究重点在于利用再参数化技巧解决强化学习的泛化问题，并利用监督学习和迁移学习理论分析其推广能力，结果证明推广能力与环境转移、回报和策略函数类等因素有关。

May, 2019

通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

该研究考虑了两种不同的学习方式：模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法，并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题，在模仿学习方面也达到了标准基准任务的最新样本效率。

Feb, 2020

乐观陷阱：通过随机化风险准则的分布式强化学习

通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法，证明了该方法的收敛性和最优性，并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。

Oct, 2023

基于强化学习的离散时间均值方差策略

本文基于强化学习研究了一个基于离散时间的均值方差模型，与其在连续时间中的对应物相比，离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本，我们得出了最优投资策略，其密度函数也是高斯型的。另外，我们设计了相应的强化学习算法。模拟实验和实证分析表明，我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。

Dec, 2023

超越指数衰减求和：自动学习回报函数

本文研究如何改变回报函数的形式来增强学习最优策略，提出使用通用数学形式的回报函数，并通过元学习来以端到端的方式学习最优回报函数，在迷宫环境和多个 Atari 游戏上进行测试，实验结果清楚地表明了自动学习最优回报函数在强化学习中的优越性。

May, 2019

分布式强化学习的估计与推断

本研究从统计效率的角度研究了分布式强化学习，重点研究了分布式策略评估问题，通过使用确定等价方法构建了一个估计器以解决样本效率问题，并研究了估计器的渐近行为。

Sep, 2023

低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

我们研究了风险敏感的强化学习 (RL)，其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL，功能逼近必须得到部署。在非线性功能逼近中，我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解，但与线性模型不同，低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法，以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR，其中 H 是每个 episode 的长度，A 是动作空间的容量，d 是表示的维度。在计算方面，我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期，并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知，这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。

Nov, 2023

使用时序差分方法直接估计 λ 返回的方差

本文提出了一种使用强化学习中的策略评估方法来直接估计 '\lambda-return' 的方差的方法，与现有方法相比，其方法更简单且更稳健。

Jan, 2018