深度强化学习实验中多少随机种子？统计功率分析

Jun, 2018

深度强化学习实验中多少随机种子？统计功率分析

How Many Random Seeds? Statistical Power Analysis in Deep Reinforcement Learning Experiments

Cédric Colas, Olivier Sigaud, Pierre-Yves Oudeyer

TL;DR深度强化学习实验结果的统计显著性检验是应对所谓的 "再现性危机" 的方法之一。本文介绍了随机种子数量与统计误差概率的关系，并提出确定随机种子数量的理论准则，最后讨论了统计检验通常假设的偏差对评估统计误差的影响，并提供应对这些负面影响的指导方针。

Abstract

Consistently checking the statistical significance of experimental results is one of the mandatory methodological steps to address the so-called "reproducibility crisis" in →

deep reinforcement learning reproducibility crisis statistical significance random seeds statistical errors

发现论文，激发创造

强化学习算法的统计比较指南

本文介绍了一份关于如何严格比较增强学习算法的指南，包括介绍了统计测试的概念、审查相关的统计测试以及比较它们在不同的样本量和效果量下的假阳性率和统计功效。除了通过模拟比较不同测试之外，我们还在 Half-Cheetah 上比较了 Soft-Actor Critic 和 Twin-Delayed Deep Deterministic Policy Gradient 算法的表现，并提供了指南和代码以进行 RL 算法性能的严格比较。

Apr, 2019

使用鲁棒非参数统计方法测量模型变异性

深度神经网络的训练通常涉及随机优化，种子的选择对于训练模型的质量至关重要，本文通过鲁棒的假设检验提出了一个新的网络相似性的统计量，利用该统计量来指导随机种子的选择，同时展示了该统计量在实验中的价值和在迁移学习中调优相比随机种子选取的优势。

Jun, 2024

我们需要谈论随机种子

该论文分析了现代神经网络库中随机种子的使用，论述了其安全和危险的用法，并通过对 ACL 文献集的分析发现，超过 50％的论文使用了随机种子的危险用法。

Oct, 2022

统计临界点边缘深度强化学习

本文通过案例研究 Atari 100k 游戏数据集，强调在少量训练运行的深度强化学习算法中，为保证结果准确性和防止领域进展停滞，不可忽略数据的不确定性，提出用区间估计来评估强化学习算法的表现，并在常用数据集上分析了已有算法的性能，提出更为严谨的性能评估方法，并配有开源库 rliable。

Aug, 2021

有意义的深度强化学习

本研究主要探讨如何提高深度强化学习领域中对实验结果的可重现性，为此研究了现有方法的可重现性、实验技术和报告程序，并提出了指导方针以使未来的研究结果更易于重现和解释。

Sep, 2017

随机种子对于模型稳定性的影响

本文旨在通过调查感知随机性对模型性能和鲁棒性的影响，将模型稳定性量化为随机种子的函数。我们特别研究了随机种子对注意力、基于梯度和替代模型的（LIME）解释行为的影响。我们提出了一种名为 ASWA（Aggressive Stochastic Weight Averaging）的技术及其扩展版本 NASWA（Norm-filtered Aggressive Stochastic Weight Averaging），以提高对种子的模型稳定性。通过我们基于 ASWA 和 NASWA 的优化，我们能够提高原始模型的鲁棒性，平均缩减模型性能的标准差 72％。

Sep, 2019

随机种子在计算机视觉深度学习架构中的影响 ——Torch.manual_seed (3407) 就是您所需要的全部

本文研究了在计算机视觉中使用流行的深度学习结构时，随机种子选择对准确性的影响。作者在 CIFAR 10 上扫描了大量种子（多达 $10^4$），并在 Imagenet 上使用预训练模型扫描了较少的种子，结论是即使方差不是很大，仍然很容易找到表现比平均水平要好或差得多的离群值。

Sep, 2021

评估真实世界机器人上深度强化学习算法的可重复性调查

本文探讨了强化学习中的无法重现性问题，提出了使用严格规范的评估方法来确保算法之间的公正比较，并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。

Sep, 2019

强化学习中的经验设计

本文旨在提出在强化学习中进行良好实验的方法，并强调常见错误和潜在统计结果，覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等，旨在通过充分利用计算资源来进行良好的实证研究。

Apr, 2023

机器学习研究的推断可再现性

本研究探讨了机器学习模型评估的可靠性，提出了使用线性混合效应模型的方法，以分析性能评估分数，并使用广义似然比检验进行统计推断。同时，本文还探讨了数据属性与算法噪声因素之间的相互作用，以及噪声源对整体方差的贡献和可靠性系数的计算方法。

Feb, 2023