强化学习算法的统计比较指南

Apr, 2019

A Hitchhiker's Guide to Statistical Comparisons of Reinforcement Learning Algorithms

Cédric Colas, Olivier Sigaud, Pierre-Yves Oudeyer

TL;DR本文介绍了一份关于如何严格比较增强学习算法的指南，包括介绍了统计测试的概念、审查相关的统计测试以及比较它们在不同的样本量和效果量下的假阳性率和统计功效。除了通过模拟比较不同测试之外，我们还在 Half-Cheetah 上比较了 Soft-Actor Critic 和 Twin-Delayed Deep Deterministic Policy Gradient 算法的表现，并提供了指南和代码以进行 RL 算法性能的严格比较。

Abstract

Consistently checking the statistical significance of experimental results is the first mandatory step towards reproducible science. This paper presents a hitchhiker's guide to rigorous comparisons of reinforcement lear

reproducible science statistical testing reinforcement learning empirical distributions rl algorithm performances

发现论文，激发创造

深度强化学习实验中多少随机种子？统计功率分析

深度强化学习实验结果的统计显著性检验是应对所谓的 "再现性危机" 的方法之一。本文介绍了随机种子数量与统计误差概率的关系，并提出确定随机种子数量的理论准则，最后讨论了统计检验通常假设的偏差对评估统计误差的影响，并提供应对这些负面影响的指导方针。

Jun, 2018

评估真实世界机器人上深度强化学习算法的可重复性调查

本文探讨了强化学习中的无法重现性问题，提出了使用严格规范的评估方法来确保算法之间的公正比较，并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。

Sep, 2019

统计临界点边缘深度强化学习

本文通过案例研究 Atari 100k 游戏数据集，强调在少量训练运行的深度强化学习算法中，为保证结果准确性和防止领域进展停滞，不可忽略数据的不确定性，提出用区间估计来评估强化学习算法的表现，并在常用数据集上分析了已有算法的性能，提出更为严谨的性能评估方法，并配有开源库 rliable。

Aug, 2021

强化学习中的经验设计

本文旨在提出在强化学习中进行良好实验的方法，并强调常见错误和潜在统计结果，覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等，旨在通过充分利用计算资源来进行良好的实证研究。

Apr, 2023

评估分布偏移对强化学习性能的影响

针对分布转换情况下的强化学习进行严格评估的方法研究。

Feb, 2024

测量强化学习算法的可靠性

本文通过提出一套度量强化学习算法可靠性的评估指标以及相应的统计测试，对可靠性的不同方面进行了量化测量，并对常见算法和环境进行实证研究和分析。

Dec, 2019

评估强化学习算法的性能

本文提出了一种全新的强化学习算法综合评估方法，旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性，且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。

Jun, 2020

有意义的深度强化学习

本研究主要探讨如何提高深度强化学习领域中对实验结果的可重现性，为此研究了现有方法的可重现性、实验技术和报告程序，并提出了指导方针以使未来的研究结果更易于重现和解释。

Sep, 2017

AdaStop：用于深度强化学习智能体高效可靠比较的顺序测试

为解决深度强化学习实验结果的可重复性问题，本文提出了一种理论上可靠且基于多组顺序测试的统计测试方法 ——AdaStop，可用于算法比较，具有较低的错误发生概率。

Jun, 2023

可复制的强化学习

本篇文章探索了在机器学习中的可复制性问题，提出了一个可复制的算法架构和针对不同领域的可复制性解决方案，包括针对控制问题和批量学习设置的评估模型。

May, 2023