统计临界点边缘深度强化学习

Aug, 2021

Deep Reinforcement Learning at the Edge of the Statistical Precipice

Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro, Aaron Courville, Marc G. Bellemare

TL;DR本文通过案例研究 Atari 100k 游戏数据集，强调在少量训练运行的深度强化学习算法中，为保证结果准确性和防止领域进展停滞，不可忽略数据的不确定性，提出用区间估计来评估强化学习算法的表现，并在常用数据集上分析了已有算法的性能，提出更为严谨的性能评估方法，并配有开源库 rliable。

Abstract

deep reinforcement learning (RL) algorithms are predominantly evaluated by comparing their relative performance on a large suite of tasks. Most published results on deep RL benchmarks compare point estimates of aggregate performance such as mean and median scores across tasks, ignoring

deep reinforcement learning statistical uncertainty performance evaluation atari 100k benchmark reliable evaluation

发现论文，激发创造

评估真实世界机器人上深度强化学习算法的可重复性调查

本文探讨了强化学习中的无法重现性问题，提出了使用严格规范的评估方法来确保算法之间的公正比较，并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。

Sep, 2019

有意义的深度强化学习

本研究主要探讨如何提高深度强化学习领域中对实验结果的可重现性，为此研究了现有方法的可重现性、实验技术和报告程序，并提出了指导方针以使未来的研究结果更易于重现和解释。

Sep, 2017

评估强化学习算法的性能

本文提出了一种全新的强化学习算法综合评估方法，旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性，且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。

Jun, 2020

测量强化学习算法的可靠性

本文通过提出一套度量强化学习算法可靠性的评估指标以及相应的统计测试，对可靠性的不同方面进行了量化测量，并对常见算法和环境进行实证研究和分析。

Dec, 2019

分布式强化学习中的统计和样本

本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法，提出了一种新算法 EDRL，同时介绍了 ER-DQN，将 EDRL 应用在 Atari-57 游戏集上进行了评估。

Feb, 2019

评估分布偏移对强化学习性能的影响

针对分布转换情况下的强化学习进行严格评估的方法研究。

Feb, 2024

位置：强化学习研究中的基准测试受限

通过对 rigorous experiment designs 的计算成本的探究，本研究提倡使用额外的实验范式来克服 benchmarking 的局限性。

Jun, 2024

强化学习算法的统计比较指南

本文介绍了一份关于如何严格比较增强学习算法的指南，包括介绍了统计测试的概念、审查相关的统计测试以及比较它们在不同的样本量和效果量下的假阳性率和统计功效。除了通过模拟比较不同测试之外，我们还在 Half-Cheetah 上比较了 Soft-Actor Critic 和 Twin-Delayed Deep Deterministic Policy Gradient 算法的表现，并提供了指南和代码以进行 RL 算法性能的严格比较。

Apr, 2019

深度强化学习中的风险和不确定性估计

提出了一个框架，通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性，并引入一种考虑不确定性的 DQN 算法，该算法表现出安全的学习行为，并在 MinAtar 测试中表现出优越性能。

May, 2019

深度强化学习的泛化评估

通过引入基准测试和实验协议，我们对深度强化学习中不同泛化方案的优点进行了系统评估，并发现与特定针对泛化的专门方案相比，“vanilla” 深度 RL 算法的泛化能力更强。

Oct, 2018