强化学习泛化中超参数及其相互依赖的实证研究
本论文旨在提高深度强化学习的可重复性,通过比较多个 HPO 工具,展示了 HPO 方法通常具有更高的性能和更低的计算开销,并提出采用从 AutoML 中建立的最佳实践,以及在广泛的搜索空间内进行原则性的 HPO。最终,论文推荐了一套适用于 RL 社区的最佳实践,以实现更强的实证结果、更少的计算成本、更好的可重复性和更快的进展。
Jun, 2023
深度强化学习在各个领域取得了巨大的成功,本文通过算法设计和精心选择超参数的结合实现了算法的改进,重要超参数的选择对性能有很大的影响,本文通过广泛的实证研究,引入了一个新的指标来确定各种超参数的一致性和可靠性,并明确了在不同的训练模式下仍然保持一致性的调整。
Jun, 2024
本文旨在提出在强化学习中进行良好实验的方法,并强调常见错误和潜在统计结果,覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等,旨在通过充分利用计算资源来进行良好的实证研究。
Apr, 2023
本文研究了深度强化学习中的过拟合问题,并使用程序生成的环境来构建不同的训练和测试集,其中引入了一个名为 CoinRun 的新环境,用作强化学习中泛化的基准。使用 CoinRun,作者发现代理程序会对相当大的训练集过拟合,还展示了更深层次的卷积体系结构以及传统监督学习中的方法,包括 L2 正则化,dropout,数据增强和批标准化等,能够提高泛化能力。
Dec, 2018
研究重点在于利用再参数化技巧解决强化学习的泛化问题,并利用监督学习和迁移学习理论分析其推广能力,结果证明推广能力与环境转移、回报和策略函数类等因素有关。
May, 2019
本论文对深度强化学习的过拟合现象进行了系统研究,发现过拟合可能会以不同方式发生,并且常用的随机性技术不一定能有效检测或预防过拟合,因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。
Apr, 2018
本文提出了一种复杂事件处理和时间模型相结合的框架来优化强化学习系统的超参数,同时利用历史信息和并行资源来提供反馈和调整超参数。作者在使用 RL(强化学习)的 5G 移动通信案例研究中测试了该方法,结果表明历史感知框架相比传统的超参数调整方法显著提高了性能。
Mar, 2023
对多目标强化学习中超参数优化的挑战进行了初步调查,并提出了一种系统性方法来解决这个问题,该方法能够显著提高多目标强化学习代理的性能,并鉴定了未来的研究机会。
Oct, 2023
通过理论上回答测试环境存在干扰因素时造成泛化差距的关键因素,我们的研究论文弥合了这一问题,指出在训练和测试环境之间尽量减小表示差距是最关键的,这与人类直觉相吻合。我们的理论结果得到了 DMControl 泛化基准测试 (DMC-GB) 的实证证据支持。
Feb, 2024
通过合成和半合成实验,我们对无监督学习中的超参数化不同方面进行了实证研究,发现在各种模型(如嘈杂 OR 网络、稀疏编码、概率上下文自由语法)和训练算法(如变分推断、交替最小化、期望最大化)中,超参数化可以显著增加回收潜在变量的数量。
Jun, 2019