分层决策 Transformer
决策 Transformer 是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了 DT 作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们研究了如何联合优化高层和低层策略以实现拼接能力,从而进一步发展了新的离线强化学习算法;我们的实证结果清楚地表明,所提出的算法在多个控制和导航基准测试中明显优于 DT;我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。
Nov, 2023
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。
Jun, 2021
本文介绍了如何使用序列建模来解决强化学习问题,使用 Transformer 架构来建模轨迹上的分布,并改造了波束搜索作为规划算法,在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性,同时将该方法与基于模型的算法相结合,使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。
Jun, 2021
该研究从数据子优劣性和任务复杂性两个方面探讨了离线强化学习的三种主要范式:Q-Learning、Imitation Learning 和 Sequence Modeling 的表现,并发现当接收到低质量数据并且奖励稀少时,Sequence Modeling 更优,因为它需要更多的数据但更加稳健且可以更好地适应任务复杂度。
May, 2023
该研究使用深度强化学习通过单个演示来学习控制复杂机器人任务的目标条件策略,并提出 DCIL-II 算法以解决连续目标之间的兼容性问题,并在仿真环境中展示了前所未有的样本效率。
Nov, 2022
Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach that improves learning efficiency and generalization capabilities, outperforming the previous state-of-the-art algorithm in various tasks.
Feb, 2024
本文利用专家示范解决关于建模长时间轨迹的问题,通过提出一种层次化神经网络结构,能够在高维状态空间中,自动识别长短期目标,进而实现不同于传统方法由单一策略为核心,解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例,通过专业体育分析师的判断得出,相较传统基准方法,作者提出的层次化策略能够生成更为真实的轨迹。
Jun, 2017
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。
Mar, 2018
提出一种多子任务增强学习的方法,将复杂的拾取和放置任务分解为低级子任务,并通过 DRL 方法学习,然后高级协调员将训练好的子任务组合来完成拾取和放置任务,此方法在样本效率方面表现优于以 LfD 为基础的基准方法,并在实际机器人系统中展示了鲁棒的抓握能力。
Feb, 2021
通过引入两种新方法,Decision Mamba (DM) 和 Hierarchical Decision Mamba (HDM),增强了 Transformer 模型的性能,实验证明 Mamba 模型在大多数任务中优于 Transformer 模型,其中 HDM 在大多数环境中表现最好。
May, 2024