深度强化学习实验中多少随机种子?统计功率分析
本文介绍了一份关于如何严格比较增强学习算法的指南,包括介绍了统计测试的概念、审查相关的统计测试以及比较它们在不同的样本量和效果量下的假阳性率和统计功效。除了通过模拟比较不同测试之外,我们还在 Half-Cheetah 上比较了 Soft-Actor Critic 和 Twin-Delayed Deep Deterministic Policy Gradient 算法的表现,并提供了指南和代码以进行 RL 算法性能的严格比较。
Apr, 2019
深度神经网络的训练通常涉及随机优化,种子的选择对于训练模型的质量至关重要,本文通过鲁棒的假设检验提出了一个新的网络相似性的统计量,利用该统计量来指导随机种子的选择,同时展示了该统计量在实验中的价值和在迁移学习中调优相比随机种子选取的优势。
Jun, 2024
本文通过案例研究 Atari 100k 游戏数据集,强调在少量训练运行的深度强化学习算法中,为保证结果准确性和防止领域进展停滞,不可忽略数据的不确定性,提出用区间估计来评估强化学习算法的表现,并在常用数据集上分析了已有算法的性能,提出更为严谨的性能评估方法,并配有开源库 rliable。
Aug, 2021
本研究主要探讨如何提高深度强化学习领域中对实验结果的可重现性,为此研究了现有方法的可重现性、实验技术和报告程序,并提出了指导方针以使未来的研究结果更易于重现和解释。
Sep, 2017
本文旨在通过调查感知随机性对模型性能和鲁棒性的影响,将模型稳定性量化为随机种子的函数。我们特别研究了随机种子对注意力、基于梯度和替代模型的(LIME)解释行为的影响。我们提出了一种名为 ASWA(Aggressive Stochastic Weight Averaging)的技术及其扩展版本 NASWA(Norm-filtered Aggressive Stochastic Weight Averaging),以提高对种子的模型稳定性。通过我们基于 ASWA 和 NASWA 的优化,我们能够提高原始模型的鲁棒性,平均缩减模型性能的标准差 72%。
Sep, 2019
本文研究了在计算机视觉中使用流行的深度学习结构时,随机种子选择对准确性的影响。作者在 CIFAR 10 上扫描了大量种子(多达 $10^4$),并在 Imagenet 上使用预训练模型扫描了较少的种子,结论是即使方差不是很大,仍然很容易找到表现比平均水平要好或差得多的离群值。
Sep, 2021
本文探讨了强化学习中的无法重现性问题,提出了使用严格规范的评估方法来确保算法之间的公正比较,并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。
Sep, 2019
本文旨在提出在强化学习中进行良好实验的方法,并强调常见错误和潜在统计结果,覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等,旨在通过充分利用计算资源来进行良好的实证研究。
Apr, 2023
本研究探讨了机器学习模型评估的可靠性,提出了使用线性混合效应模型的方法,以分析性能评估分数,并使用广义似然比检验进行统计推断。同时,本文还探讨了数据属性与算法噪声因素之间的相互作用,以及噪声源对整体方差的贡献和可靠性系数的计算方法。
Feb, 2023