在线决策转换器
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
本文介绍了一种离线强化学习的新方法 —— 图决策 Transformer(GDT)。GDT 将输入序列建模为因果图,以捕捉根本上不同概念之间的潜在依赖关系并促进时间和因果关系的学习。GDT 在图形输入处理中使用图形 Transformer,并在视觉任务中使用一个可选的序列 Transformer 来处理细粒度空间信息。实验表明,GDT 在基于图像的 Atari 和 OpenAI Gym 上的性能可以与最先进的离线强化学习方法相媲美或超越。
Mar, 2023
通过比较决策 Transformer(DT)和基于演员 - 评论者结构与经验回放的现有方法,我们研究了连续离线强化学习(CORL)框架中的 DT,发现 DT 在学习效率、分布转移缓解和零 - shot 泛化方面具有优势,但在监督参数更新时会加剧遗忘问题,我们引入多头 DT(MH-DT)和低秩自适应 DT(LoRA-DT)以减轻 DT 的遗忘问题。在 MoJuCo 和 Meta-World 基准上的广泛实验表明,我们的方法优于现有的 CORL 基准,在增强学习能力和内存效率方面展示出卓越的性能。
Jan, 2024
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。
Jun, 2021
决策 Transformer 是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了 DT 作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们研究了如何联合优化高层和低层策略以实现拼接能力,从而进一步发展了新的离线强化学习算法;我们的实证结果清楚地表明,所提出的算法在多个控制和导航基准测试中明显优于 DT;我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。
Nov, 2023
提出了一种高层次的基于试错的方法,通过在环境中提供任务提示来实现离线强化学习的上下文学习,可以更高效地解决在线任务,并在长期任务中取得了最先进的结果。
May, 2024
该研究提出了一种基于序列建模的架构,即 “环境变换器(Environment Transformer)”,以解决先前基于模型的离线强化学习方法在生成多步轨迹时缺乏长期预测能力的问题,并通过该架构提出了一种新的名为 ENTROPY 的强化学习算法,该算法通过通过 “环境变换器” 学习动态模型和奖励函数,并执行离线策略优化。该算法在 MuJoCo 连续控制 RL 环境上进行了评估,结果表明,相对于现有的基于模型的离线方法,ENTROPY 表现出更强大的长期轨迹预测能力,并与目前最先进的基于模型和基于模型的离线强化学习方法相比表现优秀。
Mar, 2023
本文提出了一种名为 Bootstrapped Transformer 的新算法,将 bootstrapping 思想和模型自我生成更多离线数据相结合,进一步提高序列模型训练的效果,该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果,并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。
Jun, 2022
我们提出了一种利用信号时态逻辑 (Signal Temporal Logic, STL) 指定复杂时态规则并使用决策变压器 (Decision Transformer, DT) 进行顺序建模的新框架,称为时态逻辑规范化决策变压器 (Specification-conditioned Decision Transformer, SDT),在 DSRL 基准测试上的实证评估表明,与现有方法相比,SDT 学习安全且高奖励策略的能力更强,并且 SDT 在满足不同 STL 规范要求的程度方面表现良好。
Feb, 2024