回溯模型:高效强化学习追溯痕迹
提高样本效率是模型自由强化学习中的一个挑战,本文提出了一种名为Backplay的方法,利用单个演示构建任务的课程并以该演示的末端为起点进行训练,最终在可竞争方法中优化训练速度。
Jul, 2018
本研究提出了一种名为REPAINT的深度强化学习知识转移算法,它不仅在On-policy学习中传递了预训练模型的表征,还使用基于优势的经验选择方法在Off-policy学习中传递了遵循预训练模型收集的有用样本,实验结果表明REPAINT在任务相似性较低的一般情况下显著缩短了总训练时间,特别当源任务与目标任务不相似或为子任务时, REPAINT在减少训练时间和返回分数的渐近性能方面都优于其他基线。
Nov, 2020
本文介绍了一种强化学习的算法,可以更加方便地让用户指定任务,通过提供成功结果的示例来代替复杂且需要技术专业知识的奖励函数。该方法不需要中间奖励函数的学习,仅仅依靠转移和成功结果来学习价值函数,从而需要调整的超参数较少并且代码读起来更加简单易懂。实验结果表明,此方法优于先前学习显式奖励函数的方法。
Mar, 2021
本研究通过理论和实证方法,探讨从不同角度对多任务强化学习的泛化性能进行提升,发现增加回放缓冲区中的转换的多样性有助于提高对训练期间“可达”和“不可达”状态的泛化能力和潜在表示的泛化能力。
Jun, 2023
本研究旨在解决在线强化学习中利用历史数据提高样本效率的挑战。提出了一种混合迁移强化学习(HTRL)设置,利用来自具有转移动力学的源环境的离线数据,使学习过程更有效。实验结果表明,所提出的HySRL算法在样本复杂性方面优于传统的在线强化学习方法,有潜力显著提升在不同环境中学习的效率。
Nov, 2024
本研究解决了“利用轨迹解释强化学习决策”论文的可重复性问题。我们验证该论文中关于轨迹聚类与强化学习代理决策之间关系的主要论点,并在定量方面进行了扩展,发现部分结论是可支持的,同时强调需要进一步的研究以增强现有结果的坚实基础。此项工作为未来更加清晰和透明的解释性强化学习方法铺平了道路。
Nov, 2024