超越预期回报：在评估强化学习算法时考虑政策可复制性

Dec, 2023

超越预期回报：在评估强化学习算法时考虑政策可复制性

Beyond Expected Return: Accounting for Policy Reproducibility when Evaluating Reinforcement Learning Algorithms

Manon Flageat, Bryan Lim, Antoine Cully

TL;DR研究表明，强化学习中存在噪音和随机性，现有的评估程序仅使用期望回报评估政策，限制其在比较政策和选择最佳权衡值方面的有效性。本研究通过推荐使用贝叶斯优化中的置信下界指标，为用户提供选择所需性能与重复性权衡的参数，并通过大量实验验证了这些指标的益处。

Abstract

Many applications in reinforcement learning (RL) usually have noise or stochasticity present in the environment. Beyond their impact on learning, these uncertainties lead the exact same policy to perform differently, i.e. yield different return, from one roll-out to another. Common eva

reinforcement learning policy reproducibility expected return performance-reproducibility trade-off lower confidence bound

发现论文，激发创造

强化学习的参数回报密度估计

本文介绍了一种用于处理统一风险管理目的的参数化收益率密度估计方法，以延伸 Bellman 方程，用 TD 学习算法估计未知环境中的收益率密度，最后用数值实验证明了该方法通过几种参数化密度估计算法实现风险敏感和稳健强化学习范式。

Mar, 2012

可复制的强化学习

本篇文章探索了在机器学习中的可复制性问题，提出了一个可复制的算法架构和针对不同领域的可复制性解决方案，包括针对控制问题和批量学习设置的评估模型。

May, 2023

评估真实世界机器人上深度强化学习算法的可重复性调查

本文探讨了强化学习中的无法重现性问题，提出了使用严格规范的评估方法来确保算法之间的公正比较，并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。

Sep, 2019

评估分布偏移对强化学习性能的影响

针对分布转换情况下的强化学习进行严格评估的方法研究。

Feb, 2024

强化学习的可复制性

探讨强化学习领域中复制性的数学研究，提出了基于生成模型下的可复制性 RL 算法，其中包括一个有效的 $ ho$-replicable 算法和一个可计算的近似可复制的算法。

May, 2023

评估强化学习算法的性能

本文提出了一种全新的强化学习算法综合评估方法，旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性，且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。

Jun, 2020

有意义的深度强化学习

本研究主要探讨如何提高深度强化学习领域中对实验结果的可重现性，为此研究了现有方法的可重现性、实验技术和报告程序，并提出了指导方针以使未来的研究结果更易于重现和解释。

Sep, 2017

测量强化学习算法的可靠性

本文通过提出一套度量强化学习算法可靠性的评估指标以及相应的统计测试，对可靠性的不同方面进行了量化测量，并对常见算法和环境进行实证研究和分析。

Dec, 2019

逆强化学习的高效概率性能界限

本文提出了一种基于贝叶斯思想的采样方法，可用于确定在反向强化学习环境下实际高置信度策略性绩效界限，并演示如何利用该界限进行风险感知的策略选择和改进。

Jul, 2017

关于可重参数化强化学习中的泛化差距

研究重点在于利用再参数化技巧解决强化学习的泛化问题，并利用监督学习和迁移学习理论分析其推广能力，结果证明推广能力与环境转移、回报和策略函数类等因素有关。

May, 2019