HarmoDT:用于离线强化学习的多任务决策协同变压器
通过比较决策 Transformer(DT)和基于演员 - 评论者结构与经验回放的现有方法,我们研究了连续离线强化学习(CORL)框架中的 DT,发现 DT 在学习效率、分布转移缓解和零 - shot 泛化方面具有优势,但在监督参数更新时会加剧遗忘问题,我们引入多头 DT(MH-DT)和低秩自适应 DT(LoRA-DT)以减轻 DT 的遗忘问题。在 MoJuCo 和 Meta-World 基准上的广泛实验表明,我们的方法优于现有的 CORL 基准,在增强学习能力和内存效率方面展示出卓越的性能。
Jan, 2024
Hyper-Decision Transformer (HDT) framework proposes an adaptation module initialized by a hyper-network to enable efficient adaptation to novel tasks for offline reinforcement learning, demonstrating better performance than state-of-the-art baselines in terms of task success rates.
Apr, 2023
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach that improves learning efficiency and generalization capabilities, outperforming the previous state-of-the-art algorithm in various tasks.
Feb, 2024
本文提出了基于序列建模的决策转换器(ODT)算法,该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标,以实现高效的探索和调整。实验证明,在 D4RL 基准测试中,ODT 在绝对性能方面与最先进的方法具有竞争力,在微调过程中展现出更显著的提高。
Feb, 2022
决策 Transformer 是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了 DT 作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们研究了如何联合优化高层和低层策略以实现拼接能力,从而进一步发展了新的离线强化学习算法;我们的实证结果清楚地表明,所提出的算法在多个控制和导航基准测试中明显优于 DT;我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。
Nov, 2023
多任务强化学习 (MTRL) 通过共享表示,来克服代理程序普适性技能泛化的长期问题,本文介绍了在 MTRL 中学习共享多样性表示的一种新方法,称为 MOORE,它通过专家混合生成的表示的共享子空间来促进任务之间的多样性,研究表明 MOORE 在 MiniGrid 和 MetaWorld 两个基准测试中超过了其他相关基线,成为 MetaWorld 领域的最新技术成果。
Nov, 2023
本文介绍了一种名为 PaCo 的参数组合方法,用于解决多任务强化学习中关于参数共享的挑战,并在 Meta-World 基准测试中取得了最先进的性能。
Oct, 2022
提出了广义决策转换器(GDT)以解决 HIM 问题,该方法能够从轨迹数据中提取多任务策略。 GDT 不仅恢复了决策转换器(DT)作为特殊情况,还引入了新的分类 DT(CDT)和双向 DT(BDT)以匹配未来的不同统计信息,并在 MuJoCo 连续控制基准测试中得到了很好的应用。
Nov, 2021
为了解决多任务融合中的严重问题,提出一种定制的离策略强化学习算法,该算法整合了离策略强化学习模型和在线探索策略,大幅度提高了性能,并采用渐进训练模式进一步提升了模型的性能。
Apr, 2024