深度强化学习中的表征差距
本文研究功能性显著表征的强化学习方法,可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验,表明该方法在表征学习、探索和分层强化学习方面具有优势。
Nov, 2018
通过对 Atari 和 MuJoCo 环境中的 PPO 代理的实证研究,揭示了 PPO 代理受特征秩降低和可塑性丧失的影响,这一现象加剧了强非稳态性,最终导致演员的性能崩溃,无论评论家的性能如何。我们建立了表示崩溃、性能崩溃和 PPO 中的信任域问题之间的联系,并提出了一种名为 PFO 的新型辅助损失,通过调节表示动态改善 PPO 代理的性能。
May, 2024
提出了一个基于表示的强化学习框架,使用来自上下文强化学习的技术来指导探索和利用。通过在线性特征空间中嵌入策略网络,将勘探利用问题转化为表示利用问题,这样好的策略表示能够实现最佳勘探。通过应用于进化和策略梯度方法,本框架比传统方法具有显著提高的性能。该框架提供了关于强化学习的新视角,突出了策略表示在确定最佳勘探利用策略方面的重要性。
May, 2023
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
强化学习是一种用于解决复杂实际问题的多功能学习框架,本研究讨论了不同的分析技术,并评估它们对于研究强化学习中行为表示对学习性能的影响的有效性。实验证明行为表示对流行强化学习基准任务的学习性能有显著影响,分析结果指出性能差异的一部分可以归因于优化整体的复杂度变化。最后,我们讨论了强化学习算法分析技术的挑战。
Sep, 2023
强化学习(RL)涵盖了不同的范式,包括基于模型的 RL、基于策略的 RL 和基于值的 RL,本文研究了这些 RL 范式之间表示复杂性的潜在层次结构,从表示模型、最优策略到最优值函数等不同层次之间存在着显著的表示复杂性差距。
Dec, 2023
通过基于值函数空间的几何特性,提出了一种新的表征学习的视角,证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中,展示了敌对价值函数作为辅助任务的有用性和特点。
Jan, 2019
本文探讨了深度强化学习技术在合作多智能体系统中的应用,实验结果表明不同网络架构的表现存在差异,提出了增强其表示能力来解决失败问题的建议。
Feb, 2019