本研究针对连续域深度强化学习方法中的过拟合问题进行了探讨,包括如何诊断及预防过拟合,增加训练多样性等,对强化学习领域的研究人员和实践者提出了实用观察。
Jun, 2018
本论文对深度强化学习的过拟合现象进行了系统研究,发现过拟合可能会以不同方式发生,并且常用的随机性技术不一定能有效检测或预防过拟合,因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。
Apr, 2018
探索一种中间立场,通过对其考虑的计划进行一种正则化来避免过度拟合,该论文提出了三种不同的方法,可在强化学习环境下明显缓解计划器过度拟合。
Dec, 2018
在本文中,我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程(Monitored MDPs),该框架解决了强化学习中奖励无法被完全观测到的问题,并讨论了该设置的理论和实践后果,提出了相应的算法。
Feb, 2024
论文研究了缺失真实环境信息的强化学习问题,将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中,提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法,并通过函数逼近扩展到大规模 MDPs,证明了其收敛性,并给出了保证局部最小的随机梯度下降算法。
Jun, 2017
提出一种能够在强化学习中实现观测空间的自适应调整的算法,通过提取源任务中的潜在动力学,并将其转移到目标任务中用作基于模型的正则化器,有效提高了目标任务的学习效率和稳定性。
Jan, 2022
通过提出一种新的探索策略,克服现有方法的局限性,即使奖励不总是可观察到,也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境(有或没有不可观察的奖励),并展示我们的方法优于现有方法。
Jun, 2024
通过对有限数据情况下的渐近偏差与过拟合的权衡分析,本文探讨了在强化学习中的部分可观测性,通过较小的状态表示减少过拟合的风险,最终通过理论结论及实验结果验证了前述结论。
Sep, 2017
本研究考虑了强化学习中因未观测潜在因素引起的虚假相关性所导致的稳健性问题,提出了集成马尔可夫决策过程和状态混淆技术的算法 RSC-MDPs,并在真实的自动驾驶和操作环境中验证了其卓越性能。
Jul, 2023
本文研究了深度强化学习中的过拟合问题,并使用程序生成的环境来构建不同的训练和测试集,其中引入了一个名为 CoinRun 的新环境,用作强化学习中泛化的基准。使用 CoinRun,作者发现代理程序会对相当大的训练集过拟合,还展示了更深层次的卷积体系结构以及传统监督学习中的方法,包括 L2 正则化,dropout,数据增强和批标准化等,能够提高泛化能力。