通过理论上回答测试环境存在干扰因素时造成泛化差距的关键因素,我们的研究论文弥合了这一问题,指出在训练和测试环境之间尽量减小表示差距是最关键的,这与人类直觉相吻合。我们的理论结果得到了 DMControl 泛化基准测试 (DMC-GB) 的实证证据支持。
Feb, 2024
该研究分析了强化学习中的超参数对泛化性能的影响,同时提出了一些经验性的指标来帮助理解超参数与泛化性能之间的复杂关系。
Jun, 2019
我们研究了在高维连续动作空间中参数化强化学习(RL)策略的挑战。我们的目标是开发一种多模式策略,以克服常用的高斯参数化方法固有的限制。为了实现这一目标,我们提出了一个原则性框架,将连续 RL 策略建模为最优轨迹的生成模型。通过将策略条件化于潜变量,我们导出了一种新颖的变分下界作为优化目标,以促进环境的探索。然后,我们提出了一种实用的基于模型的 RL 方法,称为重新参数化策略梯度(RPG),它利用多模式策略参数化和学习的世界模型来实现强大的探索能力和高效数据利用率。实证结果表明,我们的方法可以帮助 Agent 在具有密集奖励的任务中避免局部最优值,并通过结合面向对象的内在奖励来解决具有挑战性的稀疏奖励环境。我们的方法在各种任务中始终优于以前的方法。项目页面提供了代码和补充材料。
Jul, 2023
该研究研究了深度强化学习中离散行动空间中的行动泛化能力,发现 Deep Q-Networks 仍能以较小的行动泛化差异在简单领域中实现行动泛化
May, 2022
本文研究了强化学习系统在现实世界中部署的中心挑战 —— 泛化,并展示了强化学习问题的时序结构需要新的泛化方法,同时介绍了一种新的部分可观察马尔可夫决策过程(POMDP)解决方案 —— 认知 POMDP,通过简单的基于集成的技术解决了部分可观测性问题,证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。
Jul, 2021
通过引入基准测试和实验协议,我们对深度强化学习中不同泛化方案的优点进行了系统评估,并发现与特定针对泛化的专门方案相比,“vanilla” 深度 RL 算法的泛化能力更强。
Oct, 2018
本文介绍了一种用于处理统一风险管理目的的参数化收益率密度估计方法,以延伸 Bellman 方程,用 TD 学习算法估计未知环境中的收益率密度, 最后用数值实验证明了该方法通过几种参数化密度估计算法实现风险敏感和稳健强化学习范式。
Mar, 2012
研究表明,强化学习中存在噪音和随机性,现有的评估程序仅使用期望回报评估政策,限制其在比较政策和选择最佳权衡值方面的有效性。本研究通过推荐使用贝叶斯优化中的置信下界指标,为用户提供选择所需性能与重复性权衡的参数,并通过大量实验验证了这些指标的益处。
Dec, 2023
我们的研究专注于连续时间控制问题,并提出了一种适用于所有具有半群和 Lipschitz 属性的问题的方法,可以直接分析贝尔曼最优损失的先验泛化误差。该方法的核心在于对损失函数的两个转换,并使用最大操作符的分解方法来完成转换。此分析方法不需要有界性假设,最终得到一种无维度诅咒的先验泛化误差。
本篇论文重新审视了深度强化学习中表示学习的概念,并提出了几种定义,并在一个通用的测试任务上使用这些定义评估了算法的性能,结果表明代理在一些未被探索的状态下决策结果较差,这暗示我们需要更多的实验和分析,以支持表示学习的相关权利主张。
Dec, 2018